常用的html解析器有jsoup、htmlparser等。
File input=new File("xxx.html");
Document doc=Jsoup.parse(input,"UTF-8","http://xxx");
Document doc=Jsoup.connect("http://xxx").get();
查找元素
Element content=doc.getElementById("id");
Element tags=doc.getElementsByTag("tag");
getElementsByClass("classname");
getElementsByAttribute("key");
元素数据
attr(String key) 获取属性 attr(String key ,String value) 设置属性
text() 获取文本内容 text(String value)设置文本内容
html() 获取元素内html内容 html(String value)设置元素内的html内容
outerHtml() 获取元素外的html内容
data() 获取数据内容
解析html片段
Jsoup.parseBodyFragment(String html);
使用选择器来查找内容
select方法在document、Element或Elements对象中都可以使用。select方法返回一个Elements集合,并提供一组方法来抽取和处理结果。
URL处理
在HTML元素中,url经常写成相对于文档位置的相对路径。假如需要取得一个绝对路径,需要在属性名前加abs: 前缀。
attr("abs:href")