python 爬取英语词汇

最新推荐文章于 2021-06-28 23:16:00 发布

日久时见心

最新推荐文章于 2021-06-28 23:16:00 发布

阅读量3.8k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/qq_44550513/article/details/106825442

版权

python 专栏收录该内容

1 篇文章

订阅专栏

 前言：由于写一个小demol需要一些英语四级词汇作为数据，自己动手一个个找太费事所以用python搞了一个小工具用来爬取一些四级词汇，毕竟是第一个爬虫小工具，所以记录下。

首页去找了一下各个网站的词汇状况，发现扇贝的词汇好爬点，其他的好多要登录才可以，目前技术不够。

先把爬取的效果图贴出来吧

 我是把单词爬取到word.txt文件里

在这里插入图片描述

接下来直接上代码


from urllib import request
from lxml import  etree



#词汇表
words = []
fo =open("word.txt","w")

def shanbei(page):
    url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page
    print(url)

    rsp = request.urlopen(url)

    html = rsp.read()

    #解析html
    html = etree.HTML(html)

    tr_list = html.xpath("//tr")


    # 遍历每个tr元素，每一个tr对应一个单词和介绍
    for tr in tr_list:
      
        word = {}

        strong = tr.xpath('.//strong')
        if len(strong):
            # strip把找到的内容去掉空格
            name = strong[0].text.strip()
            word['name'] = name
            print(word)
            fo.write(name+"\n")



if __name__ == '__main__':
    page ={1,2,3,4,5,6,7,8,9}
    for x in page:
         shanbei(x)