python实现并行爬虫

最新推荐文章于 2022-03-28 10:45:53 发布

Rachel-Zhang

最新推荐文章于 2022-03-28 10:45:53 发布

阅读量2.2w

点赞数 4

分类专栏： Data Mining Python DataBase 文章标签： python 网络爬虫多线程 urllib chardet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcjennifer/article/details/48270479

版权

问题背景：指定爬虫depth、线程数， python实现并行爬虫
思路：单线程实现爬虫类Fetcher
多线程 threading.Thread去调Fetcher

方法：Fetcher 中，用urllib.urlopen打开指定url，读取信息：

response = urllib.urlopen(self.url)
content = response.read()

但是这样有问题，比如对于www.sina.com来说，读出来的content是乱码的：

>>> content[0:100]
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xec\xbdk\x93\x1c\xd7u \xf8\x99\x8c\xd0\x7fH\x14W\xe8*t=2\xeb\xd5\xd5]H`\x014@4\x88\x97\x00\xf0%\x10\xea\xc8\xaa\xca\xeeN\xa0\xba\xb2X\x99\x85\x06X\xa8\x1fCj\x1c\xb6ly-\x92\x06\xf5 %\xca"E\xf1!R\x94\xa8\x87C3\x9e\xf1\xd8#\x87\xbd;\x8e\xd8\x99\x8d\xb1\x1d\xf2'

于是用了python第三方工具chardet，通过

chardet.detect(content)

进行content中字符集的检测：

最低0.47元/天解锁文章

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
python实现并行爬虫

问题背景：指定爬虫depth、线程数， python实现并行爬虫思路：单线程实现爬虫类Fetcher 多线程 threading.Thread去调Fetcher 方法：Fetcher 中，用urllib.urlopen打开指定url，读取信息：response = urllib.urlopen(self.url)content = respon
复制链接

扫一扫

专栏目录

Rachel-Zhang

CSDN认证博客专家 CSDN认证企业博客

码龄15年

472: 原创

7379: 周排名

107万+: 总排名

1135万+: 访问

: 等级

5万+: 积分

3万+: 粉丝

5438: 获赞

4563: 评论

6958: 收藏

私信

关注

热门文章

分类专栏

ACM 147篇
杂感 38篇
Compression 16篇
C/C++ 133篇
Computer System 31篇
Data Mining 26篇
Linux & MAC 20篇
Computer Vision 101篇
Machine Learning 49篇
MFC 42篇
MATLAB 16篇
C# 33篇
ASP.NET 8篇
Python 25篇
Computer Graphics 2篇
DIV+CSS 2篇
DataBase 12篇
Java 3篇
English 2篇
Data Structure 75篇
C/C 4篇
php 2篇
shell 3篇
lua
swig 1篇
NLP 1篇

最新评论

Robust PCA 学习笔记
秋意思故人: 现在是VIP好花钱看呜呜呜
Robust PCA 学习笔记
秋意思故人: 现在是VIP好花钱看呜呜呜
SIFT特征提取-应用篇
chenpeng0412: 不是吧，刚买的包不会用了想来看看文章的变成会员文章了
SIFT特征提取分析
爱摸鱼的猫毛: 讲的不错
SIFT特征提取分析
麦田里的捡穗狗: 极值点是所有组里面的所有DOG尺度空间上的极值点吗，只写了极值点怎么求，没写极值点的范围是什么，高斯金字塔下采样那么多组，每一组都有很多层，就算是相邻两层做差也会产生若干个DOG，那么对于同一个大小的局部区域肯定都会产生极值点，是所有的高斯金字塔包括它下采样的那些组都要求极值点最后一并进行描述符生成操作，还是选择所有下采样组的不同层当中的最大极值点，这才是编程实现的关键，但恰恰被忽略

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。