分享一下java解析html经验:
目的:解析html中的超链接!
最开始用的github上的源码:https://github.com/jhy/jsoup/blob/master/src/main/java/org/jsoup/examples/ListLinks.java
后来经过学习,领悟了jsoup解析html基本机制。
Document doc = Jsoup.connect(url).get(); //通过url获取html页面
Elements links = doc.select("a[href]"); //带有href属性的a元素
List list = null;
for(Element link : links){
list.add(link.attr("abs:href")); //将所有a标签中的href属性添加到list集合中这样就获取到所有的超链接了
}
//getElementsByTag(String tag) 通过标签名,获取所有的子标签,列如:doc.getElementsByTag("a");则会返回所有的a标签