gevent异步爬取豆瓣top250 movie

最新推荐文章于 2020-09-24 21:24:18 发布

笑笑曦

最新推荐文章于 2020-09-24 21:24:18 发布

阅读量244

点赞数

分类专栏： python

python 专栏收录该内容

77 篇文章 1 订阅

订阅专栏

import requests
from lxml import etree
from time import time
import gevent
from gevent import monkey
monkey.patch_all()

url = 'https://movie.douban.com/top250'

def fetch_page(url):
    response = requests.get(url)
    return response

def fetch_content(url):
    response = fetch_page(url)
    page = response.content
    return page

def parse(url):
    page = fetch_content(url)
    html = etree.HTML(page)

    xpath_movie = '//*[@id="content"]/div/div[1]/ol/li'
    xpath_title = './/span[@class="title"]'
    xpath_pages = '//*[@id="content"]/div/div[1]/div[2]/a'

    pages = html.xpath(xpath_pages)
    fetch_list = []
    result = []

    for element_movie in html.xpath(xpath_movie):
        result.append(element_movie)

    for p in pages:
        fetch_list.append(url + p.get('href'))

    jobs = [gevent.spawn(fetch_content, url) for url in fetch_list]
    gevent.joinall(jobs)
    #[job.value for job in jobs]

    for page in [job.value for job in jobs]:
        html = etree.HTML(page)
        for element_movie in html.xpath(xpath_movie):
            result.append(element_movie)

    for i, movie in enumerate(result, 1):
        title = movie.find(xpath_title).text
        print('{} {}'.format(i,title.encode('utf-8')))
def main():
    start=time()
    parse(url)
    end=time()
    print('Cost {} seconds'.format((end - start)))

if __name__ == '__main__':
    main()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

笑笑曦 CSDN认证博客专家 CSDN认证企业博客

码龄12年

62: 原创

7万+: 周排名

224万+: 总排名

21万+: 访问

: 等级

2186: 积分

30: 粉丝

55: 获赞

8: 评论

216: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
渗透测试 1篇
python 77篇
性能测试 4篇
自动化测试 33篇
软件测试 15篇
爬虫 5篇
appium 3篇
数据库测试 9篇
工具 5篇
uiautomator2 1篇

最新评论

删除列表多个元素
Virus510: 我也想知道这个，为什么删除了33行结果不对，感觉确实不太需要
并发用户数，吞吐量计算公式
笑笑曦: 在性能测试方法论中，很典型的方法就是二八原则，量化业务需求。二八原则：指80%的业务量在20%的时间里完成。用户登录场景：早高峰时段，8：50---9：10，5000坐席上线登陆。业务量：5000个时间：20x60=1200秒吞吐量=80%x业务量/(20%*时间)=4000/240=16.7/秒而并非5000/1200=4.1/秒实际上，登录请求数分布是一个正态分布，最高峰时肯定比4.1/秒更高，高峰段实际上完成了80%的业务量，却只花了20%的时间。经验因子取3~5，并发量=16.7x3=50.1
Python判断字符串是否为字母或者数字
Tisfy: 真棒！就像：恰同学少年，风华正茂；书生意气，挥斥方遒。
数据迁移测试方法【转】
乌鸦的朋友圈: 博主厉害啊。谢谢博主分享经验
删除列表多个元素
死也要学Python: 没有这一行结果不对

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。