老司机用Python多线程爬取表情包

最新推荐文章于 2024-07-11 17:34:26 发布

南窗客斯黄

最新推荐文章于 2024-07-11 17:34:26 发布

阅读量5.7k

点赞数 2

分类专栏： python 文章标签： python 多线程表情包爬虫

本文链接：https://blog.csdn.net/nunchakushuang/article/details/75659861

版权

多线程爬取表情包

有一个网站，叫做“斗图啦”，网址是：https://www.doutula.com/。这里面包含了许许多多的有意思的斗图图片，还蛮好玩的。有时候为了斗图要跑到这个上面来找表情，实在有点费劲。于是就产生了一个邪恶的想法，可以写个爬虫，把所有的表情都给爬下来。这个网站对于爬虫来讲算是比较友好了，他不会限制你的headers，不会限制你的访问频率（当然，作为一个有素质的爬虫工程师，爬完赶紧撤，不要把人家服务器搞垮了），不会限制你的IP地址，因此技术难度不算太高。但是有一个问题，因为这里要爬的是图片，而不是文本信息，所以采用传统的爬虫是可以完成我们的需求，但是因为是下载图片所以速度比较慢，可能要爬一两个小时都说不准。因此这里我们准备采用多线程爬虫，一下可以把爬虫的效率提高好几倍。

一、分析网站和爬虫准备工作：

构建所有页面URL列表：

这里我们要爬的页面不是“斗图啦”首页，而是最新表情页面https://www.doutula.com/photo/list/，这个页面包含了所有的表情图片，只是是按照时间来排序的而已。我们把页面滚动到最下面，可以看到这个最新表情使用的是分页，当我们点击第二页的时候，页面的URL变成了https://www.doutula.com/photo/list/?page=2，而我们再回到第一页的时候，page又变成了1，所以这个翻页的URL其实很简单，前面这一串https://www.doutula.com/photo/list/?page=都是固定的，只是后面跟的数字不一样而已。并且我们可以看到，这个最新表情总共是有869页，因此这里我们可以写个非常简单的代码，来构建一个从1到869的页面的URL列表：

# 全局变量，用来保存页面的URL的
PAGE_URL_LIST = []
BASE_PAGE_URL = 'https://www.doutula.com/photo/list/?page='
for x in range(1, 870):
    url = BASE_PAGE_URL + str(x)
    PAGE_URL_LIST.append(url)

获取一个页面中所有的表情图片链接：

我们已经拿到了所有页面的链接，但是还没有拿到每个页面中表情的链接。经过分析，我们可以知道，其实每个页面中表情的HTML元素构成都是一样的，因此我们只需要针对一个页面进行分析，其他页面按照同样的规则，就可以拿到所有页面的表情链接了。这里我们以第一页为例，跟大家讲解。首先在页面中右键->检查->Elements，然后点击Elements最左边的那个小光标，再把鼠标放在随意一个表情上，这样下面的代码就定位到这个表情所在的代码位置了：