简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。(摘自百度百科)
jsoup虽然支持爬取网页源码,但仅仅支持HTTP,HTTPS协议。所以大多还是用来解析HTML。
查看了API发现用jsoup解析HTML可以是字符串,URL,文件。
文档
介绍
本篇也是用jsoup解析HTML字符串内容,将里面的img
标签中的src
的属性值给替换掉。
使用
在pom.xml
文件中添加依赖。版本可自行更改。
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
代码
private static String dealImage(String html){
Document doc = Jsoup.parse(html);//解析html
Elements imgList = doc.body().getElementsByTag("img");//获取所有img标签
for(Element element : imgList){
String src = element.attr("src");//获取src属性值
// TODO 处理src属性值
element.attr("src",src);//修改src属性值
}
String newStr = doc.body().toString();//处理后的HTML
return newStr.substring(6,newStr.length()-7); //首尾自带 body 标签,可截取掉
}
附
jsoup的作用还有很多。因项目需求中,只涉及到更改img
标签的src
属性。还有很多功能强大的例子可以自己写个demo跑一下。