使用xpath提取页面数据-代码实例

这篇博客提供了一个Java代码示例,演示如何使用XPath从网页抓取数据。以安徽人大网站的地方法规页面为例,展示了如何利用HtmlCleaner和XPath进行网页解析和数据提取,包括获取标题、时间和链接。
摘要由CSDN通过智能技术生成

使用xpath提取页面数据,下面简单介绍一个代码实例

随便拿一个网站抓取里面的数据,比如安徽人大中的地方法规:

链接地址:http://www.ahrd.gov.cn/npcweb/web/list.jsp?colId=1366078128953013

右击查看源:

抓取标题时间链接

实例代码如下

    public void zqmz_dffg(){
        String url="http://www.ahrd.gov.cn/npcweb/web/list.jsp?colId=1366078128953013";
        try {
            String content = doGet(url);  

          /**
             * htmlcleaner是对html分析提取数据,个人 觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。
             * htmlcleaner 对不规范的html兼容性比较好。
             * htmlcleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。
             */
            HtmlCleaner hc = new HtmlCleaner();
            TagNode tn = hc.clean(content);
            Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);

           /**
            * 1. /      表示绝对路径      表示从xml的根位置开始或子元素(一个层次结构)
            * 2. //     表示相对路劲      表示不分任何层次结构的选择元

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值