好的,再(1)中,我们实现了获取标题,那么,能不能获取复杂一点的呢,比如说下载图片啥的(我的初衷)。
总所周知,下载文件需要啥,需要一个URL对吧,咱拿我最近的一个练手的网站来说吧。(媚韵)
众所周知,这个爬虫肯定是很多时候不能通用的,得因站制宜。我们得先观察一下它的结构才行。
<p>
<img class="aligncenter size-full wp-image-25880" src="https://img-blog.csdnimg.cn/2022010709050950414.gif"
data-src="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg"
width="1068" height="1600" data-srcset="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg 1068w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-200x300.jpg 200w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-768x1151.jpg 768w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-684x1024.jpg 684w" data-sizes="(max-width: 1068px) 100vw, 1068px" />
<br />
<img>标签没跑了,data-src带了jpg后缀,试试,能打开,文件大小也对。
那我们的目的很明确了,就是将这些url(data-src)给找到,统一传给下载方法,就可以自动下载啦。
那么现在有两个问题
1.如何找出这些URL
2.如何下载
如果有看过咱系列(1)的话,仍然是使用正则表达式最优。
还是这个表达式,?<= 和 ?=
(?<=data-src=\").+?(?=\")(\为转义字符创)
得到后在进行下载即可。文末附上全代码文件
https://download.csdn.net/download/weixin_40792858/12127165