python 用grequest 实现真·高并发爬虫

最新推荐文章于 2024-06-27 15:03:57 发布

Lancer_Wu

最新推荐文章于 2024-06-27 15:03:57 发布

阅读量6.2k

点赞数

分类专栏： python 文章标签：高并发 python 爬虫

本文链接：https://blog.csdn.net/weixin_39358657/article/details/89813159

版权

python 专栏收录该内容

40 篇文章 0 订阅

订阅专栏

之前都是使用多线程来实现效率的提升，但是由于python的GIL锁的原因，导致所谓的多线程并不是多并发，而是当爬虫发出去的请求还未等到返回的间隙，继续执行别的线程，相当于交替轮流执行，是伪多并发。
而grequest库封装了gevent和requests，实现了真正的多并发请求，不过也不是说来多少并发多少，也是有边界的，所以通过size参数设置一下同时并发数。

import grequests

urls = ["https://www.baidu.com", "https://www.hao123.com", "https://www.taobao.com"]
req = (grequests.get(u) for u in urls)
resp = grequests.map(req, size=10)  # 10个并发
print(resp)

执行结果如下：

[<Response [200]>, <Response [200]>, <Response [200]>]

如果要查看网页的内容进行解析什么的，循环打印resp里面的内容即可：

for i in resp:
    print(i.text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lancer_Wu

关注关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python使用grequests(gevent+requests)并发发送请求过程解析

09-18

主要介绍了Python使用grequests并发发送请求过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

Python使用grequests并发发送请求

公众号：【伤心的辣条】

10-22

4759

我是个自动化测试人员，上面是我收集的一些视频资源，在这个过程中帮到了我很多。如果你不想再体验一次自学时找不到资料，没人解答问题，坚持几天便放弃的感受的话，可以加入我们扣扣群【313782132 】，里面有各种软件测试资源和技术讨论。软件测试是IT相关行业中最容易入门的学科~不需要开发人员烧脑的逻辑思维、不需要运维人员24小时的随时待命，需要的是细心认真的态度和IT相关知识点广度的了解，每个测试人员从入行到成为专业大牛的成长路线可划分为：软件测试、自动化测试、测试开发工程师 3个阶段。如果你不想再体验一.

4 条评论您还未登录，请先登录后发表或查看评论

python并发执行request请求

最新发布

dsgdauigfs的博客

06-27

1220

在Python中，我们可以使用requests库来发送HTTP请求，并使用threadingasyncio（配合aiohttp）或等库来并发执行这些请求。这里，我将为我们展示使用和requests库并发执行HTTP请求的示例。

python实现并发爬虫

a9794666的博客

12-01

107

在进行单个爬虫抓取的时候，我们不可能按照一次抓取一个url的方式进行网页抓取，这样效率低，也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种：进程，线程，协程。进程不在的讨论范围之内，一般来说，进程是用来开启多个spider，比如我们开启了4进程，同时派发4个spider进行网络抓取，每个spider同时抓取4个url。所以，我们今天讨论的是，在单个爬虫的...

Python-GRequests简化HTTP异步请求

08-10

GRequests使用Rquests Gevent 让异步 HTTP 变得简单、人性化

python+vue实现网站爬虫&数据分析案例

06-28

python_spiders -- 爬虫后台项目 python_spiders_web -- 爬虫前台项目运行环境 python 3.8.3 + nginx + mysql 项目技术(必填) Python 3.8.3 + flask + vue 2.6.11 + element-ui 2.13.1 + echarts + jquery

浅析python实现scrapy定时执行爬虫

09-20

以上内容涵盖了使用Python实现Scrapy定时爬虫的基本原理和几种实现方式。通过这些方法，开发者能够有效地安排爬虫任务在指定时间自动执行，从而满足不同的数据抓取需求。希望这些知识点能够帮助到需要的朋友，并解决...

python实现的电影和评分爬虫

03-01

Python实现的电影和评分爬虫是指使用Python编程语言编写的程序，用于从电影数据库网站或其他资源中爬取电影信息和评分数据的工具。这种爬虫可以自动获取电影的标题、演员、导演、上映时间、剧情介绍等信息，同时还...

知网-基于Python实现的中国知网专利爬虫.zip

04-05

在中国知网上，有大量的学术资源，包括论文、期刊、专利等，这些数据对于研究者和学习者来说具有极高的价值。本教程将介绍如何利用Python编程语言编写一个爬虫，以获取中国知网上的专利信息。Python因其简洁易读的...

毕业设计-基于python的网上购物商品评论爬虫分析设计与实现

04-21

《基于Python的网上购物商品评论爬虫分析设计与实现》在互联网时代，大量的数据在网络上以文本、图片、视频等形式存在，尤其是商品评论，作为消费者决策的重要参考，其蕴含着丰富的消费者行为信息和商品质量反馈。...

Python3.X 爬虫实战（并发爬取）

热门推荐

工匠若水

06-25

3万+

这一篇一下搞得有点不像在介绍并发爬虫，而成了 Python3 并发编程基础了，坑爹啊，无论怎样最后我们还是给出了两个基于 Python3 线程池、进程池的并发爬虫小案例，麻雀虽小，五脏俱全。虽然本篇对并发爬虫（Python3 并发）没有进行深入介绍，但是基本目的达到了，关于并发深入学习不是一两天的功夫，并发在大型项目中是个很有学问的东西，要走的路还有很长。

Python并发编程在爬虫中的应用

互联说

04-15

786

并发编程是指在一个时间段内，能够执行多个操作的程序设计，通常表现为程序中有多个任务同时启动，可以运行并且相互之间不会产生影响。并发编程的好处是可以提高程序的性能和响应能力。

python并发1000个http请求_Python 简单的并发访问http

weixin_39875516的博客

12-05

882

#!/usr/bin/env python# -*- coding:utf-8 -*-# author: Changhua Gongimport time,threading# from urllib.request import Request, urlopen py3# from urllib.error import URLError py3import urllib2#URLreq = u...

python高并发爬虫_python利用grequest 实现高并发爬虫

weixin_39596975的博客

11-29

678

之前都是使用多线程来实现效率的提升，但是由于python的GIL锁的原因，导致所谓的多线程并不是多并发，而是当爬虫发出去的请求还未等到返回的间隙，继续执行别的线程，相当于交替轮流执行，是伪多并发。而grequest库封装了gevent和requests，实现了真正的多并发请求，不过也不是说来多少并发多少，也是有边界的，所以通过size参数设置一下同时并发数。import grequestsurls...

python并发爬虫——多线程、线程池实现

sixteen_16的博客

04-27

6687

python并发爬虫——多线程、线程池实现一个网络爬虫通常由发送请求、获取响应、解析页面、本地保存等这几部分组成。其中最难，细节最多的当然是页面解析环节，对于不同的页面，其解析难度必然又所差异，甚至有些安全性较高的网站还设有各种反扒机制，想要获取需要的信息需要视具体情况而言。当然这些内容不在本篇的介绍范围内。本文主要内容是针对如何使用多线程、线程池进行并发操作，提高爬虫的爬取效率。一、常规网络爬虫 1. 执行顺序通常，我们在使用爬虫对网页进行爬取的时候，往往采用requests库发送get请求，获取响

python 简单的并发爬虫

qq_42402381的博客

09-29

557

import requests from multiprocessing import Pool import time headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/5...

使用python 实现并发爬虫

06-01

Python有很多库可以用于并发爬虫，比如 asyncio、aiohttp、requests、beautifulsoup4、lxml等。下面是一个使用 asyncio 和 aiohttp 实现并发爬虫的示例代码： ``` import asyncio import aiohttp from bs4 import BeautifulSoup async def fetch(session, url): async with session.get(url) as response: return await response.text() async def main(): urls = [ 'https://www.python.org/', 'https://www.baidu.com/', 'https://www.bing.com/' ] async with aiohttp.ClientSession() as session: tasks = [] for url in urls: tasks.append(asyncio.ensure_future(fetch(session, url))) pages = await asyncio.gather(*tasks) for page in pages: soup = BeautifulSoup(page, 'html.parser') print(soup.title) loop = asyncio.get_event_loop() loop.run_until_complete(main()) ``` 在这个示例代码中，我们使用 asyncio 和 aiohttp 实现了一个简单的并发爬虫。通过使用 asyncio.ensure_future() 函数创建任务，我们可以同时发起多个 HTTP 请求，从而提高爬取数据的效率。在获取网页的 HTML 文本后，我们使用 BeautifulSoup 解析 HTML 文本，并输出页面的标题。这个示例代码只是一个简单的示例，你可以根据自己的需求对其进行修改和扩展。