使用xpath提取页面数据,下面简单介绍一个代码实例
随便拿一个网站抓取里面的数据,比如安徽人大中的地方法规:
链接地址:http://www.ahrd.gov.cn/npcweb/web/list.jsp?colId=1366078128953013
右击查看源:
抓取标题时间链接
实例代码如下
public void zqmz_dffg(){
String url="http://www.ahrd.gov.cn/npcweb/web/list.jsp?colId=1366078128953013";
try {
String content = doGet(url);
/**
* htmlcleaner是对html分析提取数据,个人 觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。
* htmlcleaner 对不规范的html兼容性比较好。
* htmlcleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。
*/
HtmlCleaner hc = new HtmlCleaner();
TagNode tn = hc.clean(content);
Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);
/**
* 1. / 表示绝对路径 表示从xml的根位置开始或子元素(一个层次结构)
* 2. // 表示相对路劲 表示不分任何层次结构的选择元