关于使用JAVA来实现爬虫的一个简单的DEMO(2)

  好的,再(1)中,我们实现了获取标题,那么,能不能获取复杂一点的呢,比如说下载图片啥的(我的初衷)。

  总所周知,下载文件需要啥,需要一个URL对吧,咱拿我最近的一个练手的网站来说吧。(媚韵)

  众所周知,这个爬虫肯定是很多时候不能通用的,得因站制宜。我们得先观察一下它的结构才行。

<p>
<img  class="aligncenter size-full wp-image-25880" src="https://img-blog.csdnimg.cn/2022010709050950414.gif" 
data-src="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg"
width="1068" height="1600" data-srcset="http://meiyun2333.top/wp-content/uploads/2019/12/0-16.jpg 1068w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-200x300.jpg 200w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-768x1151.jpg 768w, http://meiyun2333.top/wp-content/uploads/2019/12/0-16-684x1024.jpg 684w" data-sizes="(max-width: 1068px) 100vw, 1068px" />
<br />

<img>标签没跑了,data-src带了jpg后缀,试试,能打开,文件大小也对。

那我们的目的很明确了,就是将这些url(data-src)给找到,统一传给下载方法,就可以自动下载啦。

那么现在有两个问题

1.如何找出这些URL

2.如何下载

  如果有看过咱系列(1)的话,仍然是使用正则表达式最优。

还是这个表达式,?<= 和 ?=

(?<=data-src=\").+?(?=\")(\为转义字符创)

得到后在进行下载即可。文末附上全代码文件

https://download.csdn.net/download/weixin_40792858/12127165

 

  

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值