Python爬虫 | 斗图网表情包抓取

「已注销」

于 2021-10-16 21:51:44 发布

阅读量772

点赞数 1

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_41541253/article/details/120037305

版权

本文介绍了如何使用Python爬虫抓取斗图网的表情包。通过分析网页结构，发现图片URL与页码的关系，利用XPath获取每个表情包的div元素，再提取img标签的src属性，逐个下载并保存图片。完整代码分享，强调仅供技术交流学习，禁止非法商用。

摘要由CSDN通过智能技术生成

1、数据来源分析

打开斗图吧的主页，发现网址非常有规律，通过页码数控制下一页的改变

页数	网址
第一页	https://www.doutub.com/img_lists/new/1
第二页	https://www.doutub.com/img_lists/new/2

并且，每张图片都是存在在div标签中的，因此首先要找到外层的div，最后对每一个img标签的src属性进行请求就行了
在这里插入图片描述

利用xpath在网页中容易得到每一个div_list
在这里插入图片描述
每一页共有50，也就意味着有50个表情包

利用循环，获取每一个div中获取img标签的src属性，并直接进行图片获取，并保存
在这里插入图片描述

将图片按照页码建立文件夹
在这里插入图片描述

利用循环，构造如下url即可

https://www.doutub.com/img_lists/new/{i]

import requests

关注

专栏目录