python 爬取英语词汇

 前言:由于写一个小demol需要一些英语四级词汇作为数据,自己动手一个个找太费事所以用python搞了一个小工具用来爬取一些四级词汇,毕竟是第一个爬虫小工具,所以记录下。
首页去找了一下各个网站的词汇状况,发现扇贝的词汇好爬点,其他的好多要登录才可以,目前技术不够。

先 把爬取的效果图贴出来吧

 我是把单词爬取到word.txt文件里

在这里插入图片描述
在这里插入图片描述

接下来直接上代码

from urllib import request
from lxml import  etree



#词汇表
words = []
fo =open("word.txt","w")

def shanbei(page):
    url = "https://www.shanbay.com/wordlist/104899/202159/?page=%s"%page
    print(url)

    rsp = request.urlopen(url)

    html = rsp.read()

    #解析html
    html = etree.HTML(html)

    tr_list = html.xpath("//tr")


    # 遍历每个tr元素,每一个tr对应一个单词和介绍
    for tr in tr_list:
      
        word = {}

        strong = tr.xpath('.//strong')
        if len(strong):
            # strip把找到的内容去掉空格
            name = strong[0].text.strip()
            word['name'] = name
            print(word)
            fo.write(name+"\n")



if __name__ == '__main__':
    page ={1,2,3,4,5,6,7,8,9}
    for x in page:
         shanbei(x)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值