问题
需要处理HTML片断 (一个不完整的HTML文档),从中提取a标签中href的内容
方法
引入Jsoup,maven依赖导入地址链接(博主使用版本为1.11.3)
代码实例
有段字符串包含许多标签,href有两个,我们取出第一个:
String html = "<p style="line-height: 16px;"><img src=""/><a style="" href="" title="测试1">测试1</a></p><p style="line-height: 16px;"><img src=""/><a style="" href="" title="测试2">测试2</a></p>";
Document doc = Jsoup.parseBodyFragment(html);
Element e_a =doc.getElementsByTag("a").get(0);//得到第一个a标签内容
String href = e_a.attr("href");
注
:Jsoup.parseBodyFragment和Jsoup.parse的区别:
parseBodyFragment 方法创建一个空壳的文档,并插入解析过的HTML到body元素中。假如使用 Jsoup.parse方法,也可以得到相同的结果。但是使用Jsoup.parseBodyFragment明确将用户输入作为 body片段处理,确保用户所输入的任何糟糕的HTML都将被解析成body元素。