前言:由于写一个小demol需要一些英语四级词汇作为数据,自己动手一个个找太费事所以用python搞了一个小工具用来爬取一些四级词汇,毕竟是第一个爬虫小工具,所以记录下。
首页去找了一下各个网站的词汇状况,发现扇贝的词汇好爬点,其他的好多要登录才可以,目前技术不够。
先 把爬取的效果图贴出来吧
我是把单词爬取到word.txt文件里
接下来直接上代码
from urllib import request
from lxml import etree
#词汇表
words = []
fo =open("word.txt","w")
def shanbei(page):
url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page
print(url)
rsp = request.urlopen(url)
html = rsp.read()
#解析html
html = etree.HTML(html)
tr_list = html.xpath("//tr")
# 遍历每个tr元素,每一个tr对应一个单词和介绍
for tr in tr_list:
word = {}
strong = tr.xpath('.//strong')
if len(strong):
# strip把找到的内容去掉空格
name = strong[0].text.strip()
word['name'] = name
print(word)
fo.write(name+"\n")
if __name__ == '__main__':
page ={1,2,3,4,5,6,7,8,9}
for x in page:
shanbei(x)