Python爬虫requests之扇贝单词

冥想10分钟大师

于 2019-03-23 23:43:20 发布

阅读量762

点赞数

分类专栏： requests 文章标签：爬虫

requests 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

代码，使用xpath筛选

import requests
from lxml import etree
#词汇表
words = []

def shanbei(page):
    url ='https://www.shanbay.com/wordlist/104899/202159/?page=%s'%page
    print(url)
    
    rsp = requests.get(url)
    html = rsp.text()
    html = etree.HTML(html)
    #查找所有tr标签内容
    tr_list = html.xpath('//tr')
    for tr in tr_list:
        word = {} 
        #查找单词
        strong = tr.xpath('.//strong')
        if len(strong):
            name = strong[0].text.strip()
            word['name'] = name
        #查找单词内容
        td_content = tr.xpath('./td[@class="span10"]')
        if len(td_content):
            content = td_content[0].text.strip()
            word['content'] = content
            
        if word != {}:
            words.append(word)

if __name__ == '__main__':
	#页数第一页，可以自己定义
    shanbei(1)
    print(words)
    ```

冥想10分钟大师

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫requests之扇贝单词

代码，使用xpath筛选import requestsfrom lxml import etree#词汇表words = []def shanbei(page): url ='https://www.shanbay.com/wordlist/104899/202159/?page=%s'%page print(url) rsp = requests.g...
复制链接

扫一扫

专栏目录