python爬图mzitu_小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

最新推荐文章于 2021-11-23 15:32:03 发布

weixin_39933895

最新推荐文章于 2021-11-23 15:32:03 发布

阅读量2.5k

点赞数

文章标签： python爬图mzitu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39933895/article/details/111453829

版权

本文介绍了如何使用Python的urllib库爬取妹子图网站的数据，包括分析网页结构、设置请求头、抓取外页和内页信息，以及图片下载。代码示例展示了完整爬虫流程。

摘要由CSDN通过智能技术生成

人生苦短，我用 Python

前文传送门：

引言

最近小编工作比较忙，每天能拿来写内容的时间都比较短。

刚更新完成的 urllib 基础内容太干了，跟牛肉干一样，咬着牙疼。

今天稍微空一点，决定好好放浪一下形骸，写点不正经的内容。

目标准备

看了标题各位同学应该知道小编今天要干啥了，没毛病，小编要掏出自己多年的珍藏分享给大家。

首先，我们要确定自己的目标，我们本次实战的目标网站是：https://www.mzitu.com/ 。

随便找张图给大家感受下：

小编要是上班看这个，估计是要被老板吊起来打的。

如果是进来找网址的，可以直接出去了，下面的内容已经无关紧要。

抓取分析

先使用 Chrome 浏览器打开网站 https://www.mzitu.com/ ，按 F12 打开开发者工具，查看网页的源代码：

可以看到，这里是一个 a 标签包裹了一个 img 标签，这里图片的显示是来源于 img 标签，而点击后的跳转则是来源于 a 标签。

将页面滚动到最下方，看到分页组件，点击下一页，我们观察页面 URL 的变化。

当前页面上的图片只是缩略图，明显不是我们想要的图片，随便点击一个图片，进入内层页面：https://www.mzitu.com/214337/ ，可以发现，这里图片才是我们需要的图片：

和前面的套路一样，我们往下翻几页，可以发现 URL 的变化规律。

URL 由第一页的 https://www.mzitu.com/214337/ 变化成为 https://www.mzitu.com/214337/2 ，同样是最后一位的数字增加，尝试当前页面最大值 66 ，发现依然可以正常打开，如果变为 67 ，则可以看到当前页面的标题已经显示为 404 (页面无法找到)。

爬取首页

上面我们找到了页面变化的规律，那么我们肯定是要从首页开始爬取数据。

接下来我们开始用代码实现这个过程，使用的请求类库为 Python 自带的 urllib ，页面信息提取采用 xpath 方式，类库使用 lxml 。

关于 xpath 和 lxml 是什么东西，小编后续会慢慢讲，感兴趣的同学可以先行百度学习。

下面我们开始写代码。

首先是构建请求头：

# 请求头添加 UA

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64

最低0.47元/天解锁文章

weixin_39933895

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬图mzitu_小白学 Python 爬虫（16）：urllib 实战之爬取妹子图

人生苦短，我用 Python前文传送门：引言最近小编工作比较忙，每天能拿来写内容的时间都比较短。刚更新完成的 urllib 基础内容太干了，跟牛肉干一样，咬着牙疼。今天稍微空一点，决定好好放浪一下形骸，写点不正经的内容。目标准备看了标题各位同学应该知道小编今天要干啥了，没毛病，小编要掏出自己多年的珍藏分享给大家。首先，我们要确定自己的目标，我们本次实战的目标网站是：https://www.mzit...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。