小福利，用gevent多协程高效爬取海量数据

最新推荐文章于 2022-06-21 08:52:13 发布

littlespider889

最新推荐文章于 2022-06-21 08:52:13 发布

阅读量231

点赞数 1

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/littlespider889/article/details/109148067

版权

爬虫专栏收录该内容

24 篇文章 3 订阅

订阅专栏

大家好，我是天空之城，今天给大家带来小福利，用gevent多协程高效爬取海量数据
话不多说，代码如下

from gevent import monkey
monkey.patch_all()
import gevent,time,requests
from bs4 import BeautifulSoup
from gevent.queue import Queue
start = time.time()

header = {
      'Referer': 'https://movie.douban.com/top250?start=1&filter=',
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; rv:46.0) Gecko/20100101 Firefox/46.0'}

url_list =[]
for i in range(0,225,25):
    url='https://movie.douban.com/top250?start={}&filter='.format(str(i))
    url_list.append(url)

work=Queue()
for url in url_list:
    work.put_nowait(url)

def crawler():
    while not work.empty():
        url = work.get_nowait()
        res = requests.get(url,headers=header)
        film = res.text
    #这里的res.text就是获取到的整个网页的所有源代码了，下面利用 'html.parser'模块进行网页数据的解析
        soup = BeautifulSoup(film, 'html.parser')
    #首先获取到了所有li标签下面的<‘div’,class_="item">标签，构成一个大的列表
        items = soup.find_all("div",class_="item")
    #对列表进行遍历，获取每一部电影的相关信息
        for item in items:
            xuhao=item.find('em').text #序号
            title=item.find(class_="title").text #电影名称
            pingfen=item.find(class_="rating_num").text #评分
            comment=item.find(class_="inq") #评论
            if comment==None:
                comment=''
            else:
                comment = item.find(class_="inq").text  # 评论

            link=item.find('a')['href'] #网址
            #打印一下我们获得的信息
            print(xuhao,title,pingfen,comment,link)


task_list=[]
for x in range(5):
    task=gevent.spawn(crawler)
    task_list.append(task)
gevent.joinall(task_list)

获取数据截图如下
在这里插入图片描述

littlespider889

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
小福利，用gevent多协程高效爬取海量数据

大家好，我是天空之城，今天给大家带来小福利，用gevent多协程高效爬取海量数据话不多说，代码如下from gevent import monkeymonkey.patch_all()import gevent,time,requestsfrom bs4 import BeautifulSoupfrom gevent.queue import Queuestart = time.time()header = { 'Referer': 'https://movie.douban.
复制链接

扫一扫