有趣的Python —— 图片爬取（从分析到实现）

最新推荐文章于 2024-05-11 05:22:34 发布

上冲鸭

最新推荐文章于 2024-05-11 05:22:34 发布

阅读量2.3k

点赞数 4

分类专栏：有趣的Python 文章标签： Python 爬虫图片爬取 python 学习

本文链接：https://blog.csdn.net/u011623470/article/details/96610147

版权

本文介绍了如何使用Python进行图片爬取，从分析网页URL和HTML结构，到利用BeautifulSoup4获取图片链接，再到下载并保存图片，详细讲解了整个过程。文章以斗图网站为例，展示了如何爬取多页图片，并提醒读者注意网页的动态数据获取及合法合规使用爬虫技术。

摘要由CSDN通过智能技术生成

首先来个思维导图。对这篇记录有个大概认识。篇幅主要是记录实现步骤，涉及的知识点在实现步骤中会体现，但不会展开细说。

1.分析网页

1.1 分析url

要爬取的地址，斗图为例：

第一页：https://www.doutula.com/photo/list?page=1
第二页：https://www.doutula.com/photo/list/?page=2
…
那么，第N页的url 地址就是 https://www.doutula.com/photo/list/?page= N

为什么 要分析url ,因为爬取数据时候，不单单就爬取一页的。设计出来的代码，应该可以随意爬取多少页的数据的。或者自动爬取所有数据的。而通过分析爬取url 的变化规律，就可以轻松迭代所有的页面了。

1.2 分析Html 结构，找出图片链接

这里就需要我们查找页面的源代码，进行分析了，找出需要的信息标签。

A . 首先最好使用 Chrome浏览器 打开斗图网站，对应的页面。

B . 然后我们按 F12，就会出现下面的界面：
Html 分析

C . 在源代码中，先找到 body 标签
body 标签里面就是网页展示的源代码

body

D. 在每个标签上，移动鼠标，你发现有趣的事情，你鼠标停留在某个标签上，左边的页面就会展示成蓝色。
标签分析
E. 点击打开标签，一步步找到图片所在的标签

F. 最后我们看看每一张图片的标签代码是长什么样的

第一个图片标签
<a class="col-xs-6 col-sm-3" href="https://www.doutula.com/photo/5489966" style="padding:5px;">
  <img 
    referrerpolicy="no-referrer" 
    src="//www.doutula.com/img/loader.gif" 
    style="width: 100%; height: 100%;" 
    data-original="http://ww3.sinaimg.cn/bmiddle/9150e4e5gy1g5aju5m3x8j206o06lwf1.jpg" 
    alt="小妹妹我的枪还不错吧" 
    class="img-responsive lazy image_dta" 
    data-backup="http://img.doutula.com/production/uploads/image/2019/07/24/20190724948680_ObVYKx.png">
   <p style="display: none">小妹