python协程池爬虫,python多协程爬虫示例

最新推荐文章于 2023-03-02 23:25:00 发布

weixin_39551103

最新推荐文章于 2023-03-02 23:25:00 发布

阅读量110

点赞数

文章标签： python协程池爬虫

from gevent import monkey

monkey.patch_all()

#打上多协程布丁，下面的程序就可以执行多协程了

import requests,gevent,csv

from gevent.queue import Queue

from bs4 import BeautifulSoup

#把所有URL都放到一个列表里：

url_list=[]

i=1

for i in range(10):

i=i+1

url='http://www.mtime.com/top/tv/top100/index-'+str(i)+'.html'

url_list.append(url)

#第一个url和别的不一样，需要单独加入

url_0='http://www.mtime.com/top/tv/top100/'

url_list.append(url_0)

headers={

'User-Agent':

}

csv_file=open('时光网电影列表.csv','a+',newline='',encoding='utf-8')

writer=csv.writer(csv_file)

file_head=['电影名称','导演','主演','简介']

writer.writerow(file_head)

def list(movies):

for movie in movies:

title=movie.find('h2',class_="px14 pb6").find('a').text

acts=movie.find_all('p')

try:

dic=acts[0].text

except IndexError:

dic='none'

try:

actor=acts[1].text

except IndexError:

actor='none'

try:

bief=movie.find('p',class_="mt3").text

except AttributeError:

bief='none'

writer.writerow([title,dic,actor,bief])

#所有url都放到‘不用等’房间里：

work=Queue()

for url in url_list:

work.put_nowait(url)

#爬虫对象：

def crawler():

while not work.empty():

url=work.get_nowait()

res=requests.get(url,headers=headers)

soup=BeautifulSoup(res.text,'html.parser')

movies=soup.find_all('div',class_="mov_con")

list(movies)

print(url,work.qsize(),res.status_code)

#建立多协程任务，任务不用建太多，2个就够，太多的话对方服务器承受不了

tasks_list=[]

for x in range(2):

task=gevent.spawn(crawler)

tasks_list.append(task)

gevent.joinall(tasks_list)

csv_file.close()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39551103

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python 多协程爬虫

Shinersmile的博客

01-09

653

当需要用多协程来爬取数据，创建大量任务时，可以借助gevent库中的queue模块。queue，就是队列的意思，可以用queue模块来存储任务，让任务变成一条有序的队列,这样协程就可以从队列中把任务提取出来执行，直到队列空了，任务也就处理完了。monkey，也叫猴子补丁，它能给程序打上补丁，让程序变成异步模式，而不是同步模式。gevent只能处理gevent的任务对象，不能直接调用普通函数，所以需要借助。1.4 创建任务以及执行任务。2.4 执行多协程任务。1.3 定义爬虫函数。2.3 定义爬虫函数。

python爬虫-超高速异步协程Python爬虫算法实现.zip

02-25

下面是一段简单的异步协程爬虫示例： ```python import asyncio import aiohttp async def fetch(session, url): async with session.get(url) as response: return await response.text() async def main(): ...

参与评论您还未登录，请先登录后发表或查看评论

Python协程理解——基于爬虫举例

weixin_30699831的博客

11-29

103

当前代码在工作当中没有太大的含义，但是对于大家理解协程的基础概念是相当有好处的协程最直接的可以理解为程序当中一个没有返回的功能块儿我们之前有学过多线程，所谓的多线程不论是异步并发，还是并发强调的时候将功能放到不同的线程上分别运行的过程但是协程不是这样的，协程强调的是在同一个线程上进行运行，这样免去了线程生产、消费、抛弃的损耗站在生产消费者模式来看多线程主张的是生产者生产生...

python异步协程爬虫的简单案例

EEEEEEcho的博客

08-24

706

1.协程初步协程就是一个函数，但是满足以下特征： 1.有I/O依赖的操作， 2.可以在进行I/O操作时暂停， 3.无法直接执行它的作用就是对有大量I/O操作的程序进行加速 Python协程属于可等待对象，可以在其他协程中被等待。说白了，就是在一个有I/O操作的线程等待I/O执行时，去切换下一个线程运行。小栗子 import asyncio # async 标记函数是异步函数 async def net(): return 11 async def main(): # net() 没

python爬虫--多协程

weixin_45503497的博客

06-02

244

本文所有皆为单核CPU情况，多进程（多核CPU）有待学习 1.爬取任务量较小时 from gevent import monkey #从gevent库里导入monkey模块。 monkey.patch_all() #monkey.patch_all()能把程序变成协作式运行，就是可以帮助程序实现异步。 import gevent import time import requests #导入gevent、time、requests。 start = time.time() #记录程序开始时间。 url_

python+多协程爬虫

xiaozhizhi__的博客

05-30

281

import gevent from gevent.queue import Queue, Empty import time,json import sys sys.setrecursionlimit(1000000000) from gevent import monkey # 把下面有可能有IO操作的单独做上标记 monkey.patch_all() # 将IO转为异步执行的函数 # import requests headers = { "User-Agent": "Mozilla

超高速异步协程Python爬虫.zip

12-30

本压缩包文件“超高速异步协程Python爬虫.zip”可能包含一系列实现这一目标的代码示例、教程或项目文件，虽然具体文件名未给出，但我们可以深入探讨一下异步协程在Python爬虫中的核心概念和实践技巧。 1. **异步...

Python基于协程的异步爬虫.zip

最新发布

05-18

以下是一个简单的异步爬虫示例： ```python import asyncio import aiohttp async def fetch(session, url): async with session.get(url) as response: return await response.text() async def main(): urls...

Python爬虫-使用Python开发的爬虫示例demo.zip

03-04

本示例“Python爬虫-使用Python开发的爬虫示例demo.zip”提供了详细的Python爬虫开发教程，帮助初学者快速理解和实践爬虫的编写。在Python中，我们通常使用requests库进行HTTP请求，获取网页的HTML或JSON等格式的...

python异步爬虫_Python实现基于协程的异步爬虫

weixin_39561431的博客

11-29

156

Python实现基于协程的异步爬虫一、课程介绍1. 课程来源本课程核心部分来自《500 lines or less》项目，作者是来自 MongoDB 的工程师 A. Jesse Jiryu Davis 与 Python 之父 Guido van Rossum。项目代码使用 MIT 协议，项目文档使用 http://creativecommons.org/licenses/by/3.0/legalc...

python协程池爬虫_Python之协程爬虫小说网协程爬虫案例

weixin_39903872的博客

12-11

259

在Gevent协程的使用中我们已经学会简单的使用协程，这篇文章我们通过协程爬虫来测试一下具体的效果。Gevent遇到IO阻塞时会自动切换任务：from gevent import monkeymonkey.patch_all() #import geventfrom urllib.request import urlopendef f(url):print('GET: %s' % url)res...

python多协程爬虫示例

chengduan37102900的博客

09-10

469

写python协程时使用gevent模块和queue模块可以大大提高爬虫速度。在同时爬取多个网站时，原来用for循环一个网站一个网站按循序顺序爬，就像先烧饭后烧菜，两个步骤异步进行。使用多协程可以让爬虫自己选择爬取顺序，就像边烧饭边烧菜，两个步骤同步进行，速度自然快了。不多说了，来看下代码吧： from gevent import monkey monkey.patch_all() #打上多协程布...

【Python自查手册】之多协程爬虫Scrapy框架项目实操

粤家居

02-14

526

import scrapy class JobuiItem(scrapy . Item) : #定义了一个继承自scrapy.Item的JobuiItem类 company = scrapy . Field() #定义公司名称的数据属性 position = scrapy . Field() #定义职位名称的数据属性 address = scrapy . Field() #定义工作地点的数据属性 detail = scrapy . Field() #定义招聘要求的数据属性。

python爬虫基础--多线程--多进程--协程

m0_67093160的博客

03-02

911

python爬虫多线程、多进程以及协程

python 爬虫之协程的使用

qq_53582111的博客

12-12

1162

# pip install aiohttp import aiohttp # 使用该模块中的ClientSession import asyncio header={ 'User-agent':'aaaaa' } async def test_header(): async with aiohttp.ClientSession(headers=header,cookies={'token':'123sd'}) as session: async with sessio.

Python协程理解、基于爬虫举例

李玺

06-06

971

当前代码在工作当中没有太大的含义，但是对于大家理解协程的基础概念是相当有好处的。协程最直接的可以理解为程序当中一个没有返回的功能块儿。我们之前有学过多线程，所谓的多线程不论是异步并发，还是并发强调的时候，都将功能放到不同的线程上分别运行。但是协程不是这样的，协程强调的是在同一个线程上进行运行，这样免去了线程生产、消费、抛弃的损耗。站在生产消费者模式来看，多线程主张的是生产者生产：生产...

如何加速 python 爬虫？多进程/多线程/协程

Abandon_first的博客

12-03

702

如何加速 python 爬虫？多进程/多线程/协程

利于爬虫理解协程

大泽九章

11-29

416

python 协程asyncio爬虫

07-08

关于使用Python协程和asyncio库进行爬虫，我可以给你一些指导。首先，你可以使用asyncio库来实现异步的网络请求和处理。下面是一个简单的示例代码，使用asyncio和aiohttp库来实现一个基本的爬虫： ```python ...