多进程爬取淘宝商品信息

最新推荐文章于 2024-09-09 15:45:46 发布

SpiderLQF

最新推荐文章于 2024-09-09 15:45:46 发布

阅读量1k

点赞数 1

分类专栏：爬虫实战文章标签：多进程爬取淘宝商品 selenium无头浏览器

本文链接：https://blog.csdn.net/sinat_40557813/article/details/82148168

版权

本文介绍了通过selenium无头浏览器解决淘宝反爬策略，采用多进程提高爬取效率的方法。在遇到重复商品信息问题时，通过MD5压缩商品ID并放入集合进行去重，并使用单独进程执行去重与上传数据，避免了多进程间共享数据导致的去重效果降低。同时，讨论了Python中多线程与多进程的区别，以及在多进程同步和停止时需要注意的事项。

摘要由CSDN通过智能技术生成

多进程爬取淘宝商品信息

爬取思路、策略：一开始试着通过抓包模拟请求来爬取淘宝，但是淘宝返回的数据并不全是正确的，即通过返回真和假数据来达到反爬的目的，上网查资料也没多少是涉及到直接抓包请求爬取淘宝的，就这样自己瞎琢磨了一阵子后还是没有弄明白如何破解淘宝的反爬，于是决定采用selenium无头浏览器先实现爬取淘宝商品信息的目的，往后会继续来填这个坑。

采用selenium无头浏览器，完全模拟浏览器人为操作，故淘宝的反爬策略在它面前就束手无策了，但爬取效率还是没有直接请求url的逆向分析方式快，为了提高爬取效率，采取多进程爬取，之所以采用多进程而不是多线程，是因为打开多个浏览器同时运行是个CPU密集型操作，而不是I/ O密集型操作，故选择了多进程爬取，爬取流程图如下：

起初打算只采用两个进程爬取，但发现淘宝商品展示有重复现象，而且去重对于爬虫来说也是必要的，这里采用将商品ID的MD5压缩数据放入一集合set（）中判断是否重复，从而达到去重的目的，利用一个进程来实现统一去重和上传数据，而且必须将去重和爬取分开进程执行，因为多进程是在独立的虚拟内存中运行的，两个爬取进程都产生一个集合set（）用来去重，就无法达到统一去重的目的，这样去重效果会大大减低，故需要单独一进程来执行去重操作。

最后想谈谈多线程/多进程：由于python中全局解释器锁（GIL）的存在，在任意时刻只允许一个线程在解释器中运行，因此python的多线程不适合处理cpu密集型的任务。想要处理CPU密集型任务，可以使用多进程模型；多个进程之间，使用的虚拟地址空间是独立的，只能通过Queue、Pipe来互相通信，这也是爬虫中考虑采用单独一个进程来去重的原因。而多进程间的同步和停止也是很关键的，若要判断进程是否该停止，队列的empty（）方法应该尽量少用，因为你不知道是否还有数据等待着put到队列中，所以会容易产生误判；要判断进程停止，可以在数据插入队列最后插入一结束标示符，一旦其他进程检测到这个结束标示符，结束进程。

上面是纯文字描述，下面就该是code了。

爬取前50页：

    def parse_pre_50page_product(self ,  queue):
        options = Options()
        op

最低0.47元/天解锁文章