爬取斗图吧网站并下载表情包

最新推荐文章于 2021-01-27 14:56:06 发布

小楠编程

最新推荐文章于 2021-01-27 14:56:06 发布

阅读量482

点赞数 2

分类专栏：爬虫实战文章标签： python

本文链接：https://blog.csdn.net/qq_45812394/article/details/106212247

版权

本文介绍了如何使用Python爬取斗图吧网站的表情包。首先解析URL获取不同页面的链接，接着抓取图片的data-original属性获取真实图片地址，同时处理特殊字符避免Windows下无法作为文件名的问题。最后，通过多线程的生产者消费者模式下载并保存图片。

摘要由CSDN通过智能技术生成

需求
获取斗图啦网站最新表情的信息，并下载图片到指定的文件夹。
为了提高下载速度可以使用多线程的方式操作。

获取需要用到的url

通过对网站url（https://www.doutula.com/photo/list/?page=1）的分析，可得page= 后的数字控制页数，那么就可以通过控制这个数字来获得每一页表情包的url

for x in range(1,11):
    url = 'https://www.doutula.com/photo/list/?page=%d' % x

获取要爬取图片的信息

在获取图片链接的时候要注意，图片真正的链接应该是在 data-original 之后，而不是 src之后
在Windows操作系统下，部分字符不能当作文件名，所以要将部分特殊字符替换掉，如:?。！等

response = requests.get(url,headers=self.headers)
text = response.text
html = etree.HTML(text)
imgs = html.xpath('//div[@class="page-content text-center"]//img[@class!="gif"]')
for img in imgs:
    img_url = img.get('data-original')
    #获取图片名字
    alt = img.get('alt')
    alt = re.sub(r'[\?？\.，。！!\*]','',alt)
    #获取图片的后缀名
    suffix = os.path.splitext(img_url)[

最低0.47元/天解锁文章

小楠编程

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬取斗图吧网站并下载表情包

需求获取斗图啦网站最新表情的信息，并下载图片到指定的文件夹。为了提高下载速度可以使用多线程的方式操作。获取需要用到的url通过对网站url（https://www.doutula.com/photo/list/?page=1）的分析，可得page= 后的数字控制页数，那么就可以通过控制这个数字来获得每一页表情包的urlfor x in range(1,11): url = 'https://www.doutula.com/photo/list/?page=%d' % x获取要爬取图片的
复制链接

扫一扫

专栏目录