文章目录
首先来个思维导图。对这篇记录有个大概认识。篇幅主要是记录实现步骤,涉及的知识点在实现步骤中会体现,但不会展开细说。
1.分析网页
1.1 分析url
要爬取的地址,斗图为例:
第一页:https://www.doutula.com/photo/list?page=1
第二页:https://www.doutula.com/photo/list/?page=2
…
那么,第N页的url 地址就是 https://www.doutula.com/photo/list/?page= N
为什么 要分析url ,因为爬取数据时候,不单单就爬取一页的。设计出来的代码,应该可以随意爬取多少页的数据的。或者自动爬取所有数据的。而通过分析爬取url 的变化规律,就可以轻松迭代所有的页面了。
1.2 分析Html 结构,找出图片链接
这里就需要我们查找页面的源代码,进行分析了,找出需要的信息标签。
A . 首先最好使用 Chrome浏览器 打开斗图网站,对应的页面。
B . 然后我们按 F12,就会出现下面的界面:
C . 在源代码中,先找到 body 标签
body 标签里面就是网页展示的源代码
D. 在每个标签上,移动鼠标,你发现有趣的事情,你鼠标停留在某个标签上,左边的页面就会展示成蓝色。
E. 点击打开标签,一步步找到图片所在的标签
F. 最后我们看看每一张图片的标签代码是长什么样的
第一个图片标签
<a class="col-xs-6 col-sm-3" href="https://www.doutula.com/photo/5489966" style="padding:5px;">
<img
referrerpolicy="no-referrer"
src="//www.doutula.com/img/loader.gif"
style="width: 100%; height: 100%;"
data-original="http://ww3.sinaimg.cn/bmiddle/9150e4e5gy1g5aju5m3x8j206o06lwf1.jpg"
alt="小妹妹我的枪还不错吧"
class="img-responsive lazy image_dta"
data-backup="http://img.doutula.com/production/uploads/image/2019/07/24/20190724948680_ObVYKx.png">
<p style="display: none">小妹