多进程爬取淘宝商品信息

本文介绍了通过selenium无头浏览器解决淘宝反爬策略,采用多进程提高爬取效率的方法。在遇到重复商品信息问题时,通过MD5压缩商品ID并放入集合进行去重,并使用单独进程执行去重与上传数据,避免了多进程间共享数据导致的去重效果降低。同时,讨论了Python中多线程与多进程的区别,以及在多进程同步和停止时需要注意的事项。
摘要由CSDN通过智能技术生成

多进程爬取淘宝商品信息

爬取思路、策略:一开始试着通过抓包模拟请求来爬取淘宝,但是淘宝返回的数据并不全是正确的,即通过返回真和假数据来达到反爬的目的,上网查资料也没多少是涉及到直接抓包请求爬取淘宝的,就这样自己瞎琢磨了一阵子后还是没有弄明白如何破解淘宝的反爬,于是决定采用selenium无头浏览器先实现爬取淘宝商品信息的目的,往后会继续来填这个坑。

采用selenium无头浏览器,完全模拟浏览器人为操作,故淘宝的反爬策略在它面前就束手无策了,但爬取效率还是没有直接请求url的逆向分析方式快,为了提高爬取效率,采取多进程爬取,之所以采用多进程而不是多线程,是因为打开多个浏览器同时运行是个CPU密集型操作,而不是I/ O密集型操作,故选择了多进程爬取,爬取流程图如下:

起初打算只采用两个进程爬取,但发现淘宝商品展示有重复现象,而且去重对于爬虫来说也是必要的,这里采用将商品ID的MD5压缩数据放入一集合set()中判断是否重复,从而达到去重的目的,利用一个进程来实现统一去重和上传数据,而且必须将去重和爬取分开进程执行,因为多进程是在独立的虚拟内存中运行的,两个爬取进程都产生一个集合set()用来去重,就无法达到统一去重的目的,这样去重效果会大大减低,故需要单独一进程来执行去重操作。

最后想谈谈多线程/多进程:由于python中全局解释器锁(GIL)的存在,在任意时刻只允许一个线程在解释器中运行,因此python的多线程不适合处理cpu密集型的任务。想要处理CPU密集型任务,可以使用多进程模型;多个进程之间,使用的虚拟地址空间是独立的,只能通过Queue、Pipe来互相通信,这也是爬虫中考虑采用单独一个进程来去重的原因。而多进程间的同步和停止也是很关键的,若要判断进程是否该停止,队列的empty()方法应该尽量少用,因为你不知道是否还有数据等待着put到队列中,所以会容易产生误判;要判断进程停止,可以在数据插入队列最后插入一结束标示符,一旦其他进程检测到这个结束标示符,结束进程。

上面是纯文字描述,下面就该是code了。

爬取前50页:

    def parse_pre_50page_product(self ,  queue):
        options = Options()
        op
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值