关于使用JAVA来实现爬虫的一个简单的DEMO（2）

最新推荐文章于 2021-02-16 09:40:58 发布

Sapphire Xia

最新推荐文章于 2021-02-16 09:40:58 发布

阅读量225

点赞数

本文链接：https://blog.csdn.net/weixin_40792858/article/details/104096254

版权

好的，再（1）中，我们实现了获取标题，那么，能不能获取复杂一点的呢，比如说下载图片啥的（我的初衷）。

总所周知，下载文件需要啥，需要一个URL对吧，咱拿我最近的一个练手的网站来说吧。（媚韵）

众所周知，这个爬虫肯定是很多时候不能通用的，得因站制宜。我们得先观察一下它的结构才行。

<p>
<img  class="aligncenter size-full wp-image-25880" src="https://img-blog.csdnimg.cn/2022010709050950414.gif" 
data-src="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg"
width="1068" height="1600" data-srcset="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg 1068w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-200x300.jpg 200w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-768x1151.jpg 768w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-684x1024.jpg 684w" data-sizes="(max-width: 1068px) 100vw, 1068px" />
<br />

<img>标签没跑了，data-src带了jpg后缀，试试，能打开，文件大小也对。

那我们的目的很明确了，就是将这些url（data-src）给找到，统一传给下载方法，就可以自动下载啦。

那么现在有两个问题

1.如何找出这些URL

2.如何下载

如果有看过咱系列（1）的话，仍然是使用正则表达式最优。

还是这个表达式，?<= 和 ?=

(?<=data-src=\").+?(?=\")（\为转义字符创）

得到后在进行下载即可。文末附上全代码文件

https://download.csdn.net/download/weixin_40792858/12127165