Python爬虫 | 斗图网表情包抓取

本文介绍了如何使用Python爬虫抓取斗图网的表情包。通过分析网页结构,发现图片URL与页码的关系,利用XPath获取每个表情包的div元素,再提取img标签的src属性,逐个下载并保存图片。完整代码分享,强调仅供技术交流学习,禁止非法商用。
摘要由CSDN通过智能技术生成


1、数据来源分析

  打开斗图吧的主页,发现网址非常有规律,通过页码数控制下一页的改变

页数 网址
第一页 https://www.doutub.com/img_lists/new/1
第二页 https://www.doutub.com/img_lists/new/2

  并且,每张图片都是存在在div标签中的,因此首先要找到外层的div,最后对每一个img标签的src属性进行请求就行了
在这里插入图片描述

2、制作div_list

  利用xpath在网页中容易得到每一个div_list
在这里插入图片描述
  每一页共有50,也就意味着有50个表情包
在这里插入图片描述

3、发起请求

  利用循环,获取每一个div中获取img标签的src属性,并直接进行图片获取,并保存
在这里插入图片描述

4、保存图片

  将图片按照页码建立文件夹
在这里插入图片描述

5、批量获取

  利用循环,构造如下url即可

https://www.doutub.com/img_lists/new/{i]

6、完整代码

import requests
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值