[爬虫系列(三)]用多线程爬取百度贴吧默认表情

最新推荐文章于 2019-08-22 22:12:04 发布

qq_23849183

最新推荐文章于 2019-08-22 22:12:04 发布

阅读量724

点赞数

分类专栏：爬虫 python 文章标签：多线程爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23849183/article/details/50709478

版权

python 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.

1.URL分析

分析这些url,发现它们的模式都是这样的:

http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png

所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.

2.爬取网页

有了url,那么爬取网页就方便了.因为这里的url直接指向图片地址,不包含其他内容,所以我直接用urllib.urlretrieve()函数下载图片.

3.使用多线程爬取

关于多线程具体原理我还不是很懂,这里我也是参考他人代码.首先,将要爬取的url收集到一个list中,接着开启线程池,调用map()函数,即对list中的每一个url进行下载.

具体代码见这里:用多线程爬取百度贴吧默认表情

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[爬虫系列(三)]用多线程爬取百度贴吧默认表情

一直认为百度贴吧默认表情比较有趣,于是学了爬虫后,我便想把这些表情爬下来.1.URL分析分析这些url,发现它们的模式都是这样的:http://static.tieba.baidu.com/tb/editor/images/client/image_emoticon%d.png所以,我们只需要用数字替换掉%d就行了.并且因为表情只有50张,我们只需要1到50就行了.2.爬取网页有了url,那么爬取网
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。