#!/usr/bin/env python3
from bs4 import BeautifulSoup
import requests
import csv
import bs4
import codecs
#检查url地址并返回网页contents
def check_link(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('无法链接服务器!!!')
# 判断一个unicode是否是英文字母
def is_alphabet(uchar):
if ('\u0041' <= uchar<='\u005a') or ('\u0061' <= uchar<='\u007a'):
return True
else:
return False
#爬取表格数据
def get_contents(urlist):
'''urlist: a list containing all the useful urls'''
result = []
for url in urlist:
content = check_link(url)
soup = BeautifulSoup(content,'lxml')
trs = soup.find_all('tr')
for tr in trs:
ui = []
fo
Python爬取扇贝“【无老师】7天搞定TOEFL单词”
最新推荐文章于 2023-08-22 13:15:02 发布
该Python脚本用于爬取扇贝网上【无老师】7天TOEFL单词系列的内容。脚本首先检查URL并获取网页内容,接着判断并抓取含有特定字符串的URL,再提取表格数据,并将结果保存到CSV文件中。主要使用了BeautifulSoup和requests库来实现爬虫功能。
摘要由CSDN通过智能技术生成