爬取小说2--协程间通信Python

通过Python进行协程间通信,大大加速爬取效率。

前言

是这样的,在之前的爬虫版本中,我们通过并发技术(python协程只是并发)。实现快速爬取小说的效果。
将速度提高为原来的几百倍了。但是却由于之前的多协程之间的通信,都是采用写入硬盘之后,再相互通信来实现的,所以,速度上还是存在一定的缺陷。

最新

在最新的版本中,我们采用多协程技术,采用在内存通信,这样来传递爬取的数据,之后,再来组合成为新的章节,这样就可以做到了对于之前版本的提速效果。而且需要代码量也下降了10行左右。

还是跟之前的版本一样目标小说网站只能是http://www.biquge.com.tw/这个网站下的小说的目录页

只要把目录页对应的小说的网址丢到main函数中的url里面,就可以实现了小说爬取。

小调整tips:
当然啦,根据自己的需求,可以试试看改改BuildGevent函数的step变量。这个表示每次发多少个协程。注意,最多是1200个。
这个设置,可以自己考虑,根据不同的设备情况,网络效果,对方服务器的稳定程度来进行判断。

import requests
import os
import gevent
from gevent import monkey
import random
import re
from lxml import etree
monkey.patch_all(select=False)
from urllib import parse
import time

IPs = [{
  'HTTPS': 'HTTPS://182.114.221.180:61202'},
       {
  'HTTPS'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

肥宅_Sean

公众号“肥宅Sean”欢迎关注

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值