python实现并行爬虫

最新推荐文章于 2024-11-18 21:55:32 发布

Rachel-Zhang

最新推荐文章于 2024-11-18 21:55:32 发布

阅读量2.2w

点赞数 4

分类专栏： Data Mining Python DataBase 文章标签： python 网络爬虫多线程 urllib chardet

本文链接：https://blog.csdn.net/abcjennifer/article/details/48270479

版权

本文介绍了如何使用Python实现一个并行爬虫，通过多线程提高爬取效率。在过程中，遇到页面gzip编码的问题，通过chardet识别编码，但在设置urlopen超时时发现编码识别不一致。解决方法是检查'Content-Encoding'头部，如果为'gzip'则先解压再读取内容。完整可运行的多线程爬虫代码在链接中提供。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题背景：指定爬虫depth、线程数， python实现并行爬虫
思路：单线程实现爬虫类Fetcher
多线程 threading.Thread去调Fetcher

方法：Fetcher 中，用urllib.urlopen打开指定url，读取信息：

response = urllib.urlopen(self.url)
content = response.read()

但是这样有问题，比如对于www.sina.com来说，读出来的content是乱码的：

>>> content[0:100]
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec\xbdk\x93\x1c\xd7u \xf8\x99\x8c\xd0\x7fH\x14W\xe8*t=2\xeb\xd5\xd5]H`\x014@4\x88\x97\x00\xf0%\x10\xea\xc8\xaa\xca\xeeN\xa0\xba\xb2X\x99\x85\x06X\xa8\x1fCj\x1c\xb6ly-\x92\x06\xf5 %\xca"E\xf1!R\x94\xa8\x87C3\x9e\xf1\xd8#\x87\xbd;\x8e\xd8\x99\x8d\xb1\x1d\xf2'

于是用了python第三方工具chardet，通过