xpath 解析html java_Java下使用xpath解析html文件

最新推荐文章于 2023-09-03 20:48:45 发布

小仙女挠痒痒

最新推荐文章于 2023-09-03 20:48:45 发布

阅读量943

点赞数

文章标签： xpath 解析html java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34622572/article/details/114351698

版权

这段时间一直在网络上扒取数据，为了方便就用到了xpath，一开始使用真的是挺难的，不过用用就好了，但是网上的资源少之又少，所以自己就写个博客把～～～

首先需要下载三个jar包 nekohtml.jar xalan.jar xerceslmpl.jar

在下面的这个文章中可以找自己想要的语法结构

http://blog.csdn.net/dyoldfish/article/details/1774539

直接上代码

不好意思，这个文本编辑器实在是不好用，凑合着看～～

import org.apache.xpath.XPathAPI;

import org.cyberneko.html.parsers.DOMParser;

import org.w3c.dom.DOMException;

import org.w3c.dom.Document;

import org.w3c.dom.Node;

import org.w3c.dom.NodeList;

import org.xml.sax.InputSource;

public class Hxpath {

DOMParser parser = new DOMParser();

try {

//设置网页的默认编码

parser.setProperty("http://cyberneko.org/html/properties/default-encoding","gb2312");

parser.setFeature("http://xml.org/sax/features/namespaces", false);

//可以修改获取页面的编码方式，在最后的那个参数

BufferedReader in = new BufferedReader(new InputStreamReader(new URL("www.baidu.com").openStream(),"gb2312"));

parser.parse(new InputSource(in)); in.close();

} catch (Exception e) {

e.printStackTrace();

}

Document doc = parser.getDocument();

String productsXpath = "//UL/LI/A[@class='orange"; //xpath语句

NodeList products; products = XPathAPI.selectNodeList(doc, productsXpath);

String temp="";Node node = null;String p = "";

for (int i = 0; i < products.getLength(); i++) {

node = products.item(i);temp=node.getTextContent().trim();

System.out.println("i="+i+" "+temp);

}

}整个程序基本是这样的，在其中修改url值和xpath语法就可以分析html页面，如果是本地的html文件，没有试过，这个是直接从网络获取

//UL/LI/A[@class='orange"这句话的意思就是获取ul标签下的li标签下的a标签，并且a标签的class属性是orange的文本信息

//UL/LI/A/attribute::href 表示获取a标签的href属性

两个语句之间使用 | 可以匹配多个

html标签必须大写

如果还有其他问题就留言～～～感觉这个东西还算是很好用的～～～

小仙女挠痒痒

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。