使用xpath提取页面数据-代码实例

最新推荐文章于 2024-07-18 10:17:16 发布

壁花girl

最新推荐文章于 2024-07-18 10:17:16 发布

阅读量6.5k

点赞数 2

分类专栏： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34357835/article/details/82623657

版权

这篇博客提供了一个Java代码示例，演示如何使用XPath从网页抓取数据。以安徽人大网站的地方法规页面为例，展示了如何利用HtmlCleaner和XPath进行网页解析和数据提取，包括获取标题、时间和链接。

摘要由CSDN通过智能技术生成

使用xpath提取页面数据，下面简单介绍一个代码实例

随便拿一个网站抓取里面的数据，比如安徽人大中的地方法规：

链接地址：http://www.ahrd.gov.cn/npcweb/web/list.jsp?colId=1366078128953013

右击查看源：

抓取标题时间链接

实例代码如下

   public void zqmz_dffg(){
       String url="http://www.ahrd.gov.cn/npcweb/web/list.jsp?colId=1366078128953013";
       try {
           String content = doGet(url);

/**
           * htmlcleaner是对html分析提取数据，个人觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。
           * htmlcleaner 对不规范的html兼容性比较好。
           * htmlcleaner.clean()中的参数，可以是文件，可以是url，可以是字符串内容。
           */
           HtmlCleaner hc = new HtmlCleaner();
           TagNode tn = hc.clean(content);
           Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);

/**
* 1. / 表示绝对路径表示从xml的根位置开始或子元素（一个层次结构）
* 2. // 表示相对路劲表示不分任何层次结构的选择元

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

壁花girl CSDN认证博客专家 CSDN认证企业博客

码龄9年

28: 原创

31万+: 周排名

128万+: 总排名

17万+: 访问

: 等级

1525: 积分

25: 粉丝

30: 获赞

33: 评论

116: 收藏

私信

关注

热门文章

分类专栏

java 31篇
mybatis 3篇
html5 1篇
Spring Boot 2篇
Layui 2篇

最新评论

jquery-qrcode生成带logo的二维码
时光伊始: 这个转换成base64位的图片就光有二维码是啥情况呢？ <script type="text/javascript"> $("#qrcode").qrcode( { render : "canvas", //设置渲染方式，有table和canvas，使用canvas方式渲染性能相对来说比较好 text : "hello world", //扫描二维码后显示的内容,可以直接填一个网址，扫描二维码后自动跳向该链接 width : "200", // //二维码的宽度 height : "200", //二维码的高度 background : "#ffffff", //二维码的后景色 foreground : "#000000", //二维码的前景色 src: 'https://sucai.suoluomei.cn/sucai_zs/images/20191126150939-avatar.jpg' //二维码中间的图片 } ); var ca=$("#qrcode").find("canvas")[0]; console.log(ca); //获取二维码中的图片地址 var src_xp=ca.toDataURL('image/jpeg'); console.log(src_xp);//这个是base64位的，下载后是没有logo的二维码 </script>
ECharts 折线图 tooltip 自定义显示的内容
王锦军: 这写的什么啊
批量修改状态
weixin_45147099: 一条一条的插入，会反反复复的获取 Connection 以及释放 Connection 会耗费大量时间，效率奇低
java生成唯一订单号
954L: ....提醒一下博主吧，SimpleDateFormat线程不安全，上述代码高并发下有重复的风险
checkbox获取后端数据实现自动选中
一切为了生产力: ps：是体制内的日常数据录入任务，望回复，为盼！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。