用Java解析html页面
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Test {
public static void main(String[] args){
//···这里得到url和html
//url为网址,html为网页,是需要提取获取的
//解析html页面
Document doc=Jsoup.parse(html, url);
//获取title
Elements es=doc.getElementsByTag("title"); //还有其他不同方法
String title=es.text(); //text()方法是获取标签中内容,toString()方法是把es直接转换成String
System.out.println(title);
//获取标签内的属性值
es=doc.getElementsByTag("a");
for(int i=0;i<es.size();i++){
String href=es.get(i).absUrl("href");
System.out.println(href);
}
//获取某标签下的某标签下的某标签下的...(的某属性)的值
//要确保路径正确,不一定要从head或body开始,可以直接通过id值,如doc.select("#article_content")
//若要通过标签的属性class区别开的话用.,如doc.select("div>div.blog-content-box")
//若属性值空格分卡的话,还是用.,如doc.select("div>div.article_content.clearfix") <div class="article_content clearfix">
es=doc.select("head>title");
System.out.println(es.text());
}
}