爬虫学习笔记：爬取百度贴吧（美女吧）图片

最新推荐文章于 2022-07-11 07:35:00 发布

明的大世界

最新推荐文章于 2022-07-11 07:35:00 发布

阅读量724

点赞数 1

分类专栏：代码专区

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/maxMikexu/article/details/105291576

版权

1、摘要

目的：爬虫项目学习，使用requests方法，爬取百度贴吧美女吧每个帖子的图片，并保存到本地中。

方法：首先，通过requests请求美女吧网页内容；其次，通过xpath方法清洗数据，获取到每个帖子的url地址；再次，请求每个帖子的地址，并从每个帖子地址中爬取图片链接；最后，请求图片数据，以二进制格式保存数据到本地。

2、网页分析

如下图所示，为本次爬取的目标网站，百度美女吧，需求：爬取每个帖子中的图片，并保存到本地。爬取该网站首先需要对该网站的特点进行分析，需要分析的内容包含：网站页面的特点、帖子url地址特点、图片链接地址如何获取。下面我一一介绍这几点需要分析的内容：

2.1 美女吧网页特点

美女吧：https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0

通过观察可以看出：kw是搜索内容，pn是页码，第一页为0，第二页为50，所以页码的公式为pn=(页数-1)*50。

2.2 帖子url地址特点

最低0.47元/天解锁文章

明的大世界

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
爬虫学习笔记：爬取百度贴吧（美女吧）图片

1、摘要目的：爬虫项目学习，使用requests方法，爬取百度贴吧美女吧每个帖子的图片，并保存到本地中。方法：首先，通过requests请求美女吧网页内容；其次，通过xpath方法清洗数据，获取到每个帖子的url地址；再次，请求每个帖子的地址，并从每个帖子地址中爬取图片链接；最后，请求图片数据，以二进制格式保存数据到本地。2、网页分析如下图所示，为本次爬取的目标网站，百度美女吧，需...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。