Python爬虫系列（五）360图库美女图片下载

最新推荐文章于 2024-07-25 14:43:39 发布

致Great

最新推荐文章于 2024-07-25 14:43:39 发布

阅读量2.6w

点赞数 1

分类专栏：爬虫 Python 文章标签： python 爬虫图片库 360

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanqianglifei/article/details/77738492

版权

Python 同时被 2 个专栏收录

11 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

这几天终于忙完毕设和学校的事情，终于有时间来写Python了（(￣▽￣)~*）。前些天在群里看到有人讨论这个360美女图库的爬取。自己今天也尝试下（蛮简单）。

因为这个网站是下拉到底底部，图片就会加载进来，所以自己想用Seleniu+PhantomJS来做，后来分享doc源代码并没有我们想要的图片信息，后来发现是js请求的数据，找到数据请求的地址，自己发现每次，下拉都会加载30张图片，所以自己将请求的其实图片张数每次加30（其实也就是模拟下拉动作，所以分析网站很重要，怎么省事怎么来吧O(∩_∩)O）下面是爬取过程和详情。

一、分析网站，找到目标的数据并分析img

首先打开开发者工具，找到network选项卡里下的doc，我们看下有没有想要的图片的src地址？

发下并没有我们要的信息

接着看我们可以看到底部srcipt，id=“initData”,通过这个id名字来看，就是初始打开这个网页的时候回默认加载30张美女图片

初始数据

然后打开network下的all选项，我们下拉浏览器，会发现下面有规律的请求地址：

（没错，这就是目标的数据请求地址，格式也是json）

ch=beuaty代表美女分类，sn={}代表每次请求30张

img的src为qhimg_url : "http://p0.so.qhimgs1.com/t01ac9283f4ba213c3c.jpg"

（ps：json的数据提取qhimg_url很简单了，和上一篇DOTA排行榜思路差不多）

json格式化工具（看的舒服些）

我上传了：格式化工具下载

二、编写代码，下载图片并存到相应路径

这里自己使用urllib库中的一个函数urlretrieve（）保存图片（很方便，很强大），然后保存的图片名称就是请求地址里的图片名称。

下载保存图片

源码地址

三、总结

整体思路简单，但是这个程序有改善的地方，比如可以获取其他分类的图片

分类

那就将beauty替换成其他字段的分类字段。还有一个就是，可以尝试多线程下载，这儿离的思路是下拉动作完成之后，获取到所有src地址之后，再去执行的下载，可以尝试下边下拉边下载。

（ps：加一张美女图片：ψ(*｀ー´)ψ）

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

致Great CSDN认证博客专家 CSDN认证企业博客

码龄10年

中国科学院计算技术研究所

567: 原创

2920: 周排名

3486: 总排名

91万+: 访问

: 等级

7935: 积分

1万+: 粉丝

894: 获赞

251: 评论

3202: 收藏

私信

关注

热门文章

分类专栏

NLP 67篇
大模型 16篇
RAG 9篇
SD 1篇
Pytorch 3篇
比赛推送 6篇
实体识别 5篇
笔记 2篇
图神经网络 9篇
AI学习 7篇
php与Ajax 9篇
php学习 7篇
jquery学习 4篇
javascript 5篇
Qt 7篇
数据结构
2017-我的Java学习之路 1篇
Python 11篇
爬虫 4篇
机器学习 12篇
知识图谱 5篇
算法学习 13篇

最新评论

基于MinerU的PDF解析API
算法的世界: 把那几个文件返回出来呀
基于MinerU的PDF解析API
LEEEEEO_: File "/usr/lib/python3.10/asyncio/runners.py", line 44, in run return loop.run_until_complete(main) File "/usr/lib/python3.10/asyncio/base_events.py", line 636, in run_until_complete self.run_forever() File "/usr/lib/python3.10/asyncio/base_events.py", line 603, in run_forever self._run_once() File "/usr/lib/python3.10/asyncio/base_events.py", line 1909, in _run_once handle._run() File "/usr/lib/python3.10/asyncio/events.py", line 80, in _run self._context.run(self._callback, *self._args) File "/opt/mineru_venv/lib/python3.10/site-packages/uvicorn/server.py", line 68, in serve with self.capture_signals(): File "/usr/lib/python3.10/contextlib.py", line 142, in __exit__ next(self.gen) File "/opt/mineru_venv/lib/python3.10/site-packages/uvicorn/server.py", line 328, in capture_signals signal.raise_signal(captured_signal) KeyboardInterrupt During handling of the above exception, another exception occurred: Traceback (most recent call last):
基于MinerU的PDF解析API
LEEEEEO_: 部署报错，这是怎么回事， File "/usr/lib/python3.10/asyncio/runners.py", line 44, in run return loop.run_until_complete(main) File "/usr/lib/python3.10/asyncio/base_events.py", line 636, in run_until_complete self.run_forever() File "/usr/lib/python3.10/asyncio/base_events.py", line 603, in run_forever self._run_once() File "/usr/lib/python3.10/asyncio/base_events.py", line 1909, in _run_once handle._run() File "/usr/lib/python3.10/asyncio/events.py", line 80, in _run self._context.run(self._callback, *self._args) File "/opt/mineru_venv/lib/python3.10/site-packages/uvicorn/server.py", line 68, in serve with self.capture_signals(): File "/usr/lib/python3.10/contextlib.py", line 142, in __exit__ next(self.gen) File "/opt/mineru_venv/lib/python3.10/site-packages/uvicorn/server.py", line 328, in capture_signals signal.raise_signal(captured_signal) KeyboardInterrupt During handling of the above exception, another exception occurred: Traceback (most recent
【保姆级教程】如何在Win11上搭建一个GPU环境
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
【保姆级教程】如何在Win11上搭建一个GPU环境
给小泽让个位: 先赞后看

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。