有趣的Python —— 图片爬取(从分析到实现)

本文介绍了如何使用Python进行图片爬取,从分析网页URL和HTML结构,到利用BeautifulSoup4获取图片链接,再到下载并保存图片,详细讲解了整个过程。文章以斗图网站为例,展示了如何爬取多页图片,并提醒读者注意网页的动态数据获取及合法合规使用爬虫技术。
摘要由CSDN通过智能技术生成

首先来个思维导图。对这篇记录有个大概认识。篇幅主要是记录实现步骤,涉及的知识点在实现步骤中会体现,但不会展开细说。

大纲

1.分析网页

1.1 分析url

要爬取的地址,斗图为例:

第一页:https://www.doutula.com/photo/list?page=1
第二页:https://www.doutula.com/photo/list/?page=2

那么,第N页的url 地址就是 https://www.doutula.com/photo/list/?page= N

为什么 要分析url ,因为爬取数据时候,不单单就爬取一页的。设计出来的代码,应该可以随意爬取多少页的数据的。或者自动爬取所有数据的。而通过分析爬取url 的变化规律,就可以轻松迭代所有的页面了。

1.2 分析Html 结构,找出图片链接

这里就需要我们查找页面的源代码,进行分析了,找出需要的信息标签。

A . 首先最好使用 Chrome浏览器 打开斗图网站,对应的页面。

B . 然后我们按 F12,就会出现下面的界面:
Html 分析

C . 在源代码中,先找到 body 标签
body 标签里面就是网页展示的源代码

body

D. 在每个标签上,移动鼠标,你发现有趣的事情,你鼠标停留在某个标签上,左边的页面就会展示成蓝色
标签分析
E. 点击打开标签,一步步找到图片所在的标签
标签分析

F. 最后我们看看每一张图片的标签代码是长什么样的

第一个图片标签
<a class="col-xs-6 col-sm-3" href="https://www.doutula.com/photo/5489966" style="padding:5px;">
  <img 
    referrerpolicy="no-referrer" 
    src="//www.doutula.com/img/loader.gif" 
    style="width: 100%; height: 100%;" 
    data-original="http://ww3.sinaimg.cn/bmiddle/9150e4e5gy1g5aju5m3x8j206o06lwf1.jpg" 
    alt="小妹妹我的枪还不错吧" 
    class="img-responsive lazy image_dta" 
    data-backup="http://img.doutula.com/production/uploads/image/2019/07/24/20190724948680_ObVYKx.png">
   <p style="display: none">小妹
  • 4
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值