Jsoup解析网页(一)获取img标签的所有src属性

最近在项目中做一个需求,将一个网页中的外部的图片下载到我们自己的服务器,方法就是对html里的内容匹配出img标签的src的地址,然后利用这个地址下载图片,但总是会出现有的src的地址不是正确的图片资源,出现下载错误的情况,而我在img标签中发现还有data-src属性或者original-src属性,且这些属性里的地址是可下载的。

这就为我带来一个思路,匹配出img标签中所有属性中包含src字符串的都筛选出来。如果src的地址下载不了,那就用data-src或者其他的带src字符串属性的地址去下载。

关于怎么获取img标签中的src的属性,大家可能都了解用正则表达式去匹配。
这里先用正则表达式做个小测试吧:

       String html="<p>pic1:<img width=\"200\" data-src=\"/image/261/1.jpeg\" alt=\"\"/> pic2: <img width=\"200\" src=\"/image/751/3.jpg\" alt=\"\"/>,pic3:<img width=\"200\" src=\"/image/132/5.jpeg\" alt=\"\"/></p>";
       Pattern p = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>");
       Matcher m = p.matcher(html);
       while(m.find()){
           //整个img标签
           System.out.println("img标签-------------"+m.group());
           //src属性
           System.out.println("src属性-------------"+m.group(1));
       }

输出结果:

img标签-------------<img width="200" data-src="/image/261/1.jpeg" alt=""/>
src属性-------------/image/261/1.jpeg
img标签-------------<img width="200" src="/image/751/3.jpg" alt=""/>
src属性-------------/image/751/3.jpg
img标签-------------<img width="200" src="/image/132/5.jpeg" alt=""/>
src属性-------------/image/132/5.jpeg

今天刚接触用jsoup去解析html标签,发现非常方便,比用自己辛辛苦苦去写正则方便多了,正则整个写完,过一段时间再来看这个正则表达式,估计就看不懂了。

下面就介绍用jsoup解析网页:

我截取下面这个网址的部分源代码
http://domestic.firefox.sina.com/17/0412/08/4OPJ52GTXH0M3V9W.html
部分源代码

<li><a href="http://domestic.firefox.sina.com/" title="国内">国内</a></li>
      <li><a href="http://world.firefox.sina.com/" title="国际">国际</a></li>
      <li><a 
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值