java xpath evaluate_Java - XPath解析爬取内容

最新推荐文章于 2021-02-24 10:25:21 发布

xinhe sun

最新推荐文章于 2021-02-24 10:25:21 发布

阅读量625

点赞数

文章标签： java xpath evaluate

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34536454/article/details/114214897

版权

就爬取和解析内容而言，我们有太多选择。

比如，很多人都觉得Jsoup就可以解决所有问题。

无论是Http请求、DOM操作、CSS query selector筛选都非常方便。

关键是这个selector，仅通过一个表达式筛选出的只能是一个node。

如过我想获得一个text或者一个node的属性值，我需要从返回的element对象中再获取一次。

而我恰好接到了一个有意思的需求，仅通过一个表达式表示想筛选的内容，获取一个新闻网页的每一条新闻的标题、链接等信息。

XPath再合适不过了，比如下面这个例子：

static void crawlByXPath(String url,String xpathExp) throws IOException, ParserConfigurationException, SAXException, XPathExpressionException {

String html = Jsoup.connect(url).post().html();

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

DocumentBuilder builder = factory.newDocumentBuilder();

Document document = builder.parse(html);

XPathFactory xPathFactory = XPathFactory.newInstance();

XPath xPath = xPathFactory.newXPath();

XPathExpression expression = xPath.compile(xpathExp);

expression.evaluate(html);

}

遗憾的是，几乎没有网站可以通过documentBuilder.parse这段代码。

而XPath却对DOM非常严格。

对HTML进行一次clean，于是我加入了这个东西:

net.sourceforge.htmlcleaner

htmlcleaner

2.9

HtmlCleaner可以帮我解决这个问题，而且他本身就支持XPath。

仅仅一行HtmlCleaner.clean就解决了:

public static void main(String[] args) throws IOException, XPatherException {

String url = "http://zhidao.baidu.com/daily";

String contents = Jsoup.connect(url).post().html();

HtmlCleaner hc = new HtmlCleaner();

TagNode tn = hc.clean(contents);

String xpath = "//h2/a/@href";

Object[] objects = tn.evaluateXPath(xpath);

System.out.println(objects.length);

}

但是HtmlCleaner又引发了新的问题，当我把表达式写成"//h2/a[contains(@href,'daily')]/@href"时，他提示我不支持contains函数。

而javax.xml.xpath则支持函数使用，这下问题来了。

如何结合二者? HtmlCleaner提供了DomSerializer，可以将TagNode对象转为org.w3c.dom.Document对象，比如:

Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);

如此一来就可以发挥各自长处了。

public static void main(String[] args) throws IOException, XPatherException, ParserConfigurationException, XPathExpressionException {

String url = "http://zhidao.baidu.com/daily";

String exp = "//h2/a[contains(@href,'daily')]/@href";

String html = null;

try {

Connection connect = Jsoup.connect(url);

html = connect.get().body().html();

} catch (IOException e) {

e.printStackTrace();

}

HtmlCleaner hc = new HtmlCleaner();

TagNode tn = hc.clean(html);

Document dom = new DomSerializer(new CleanerProperties()).createDOM(tn);

XPath xPath = XPathFactory.newInstance().newXPath();

Object result;

result = xPath.evaluate(exp, dom, XPathConstants.NODESET);

if (result instanceof NodeList) {

NodeList nodeList = (NodeList) result;

System.out.println(nodeList.getLength());

for (int i = 0; i < nodeList.getLength(); i++) {

Node node = nodeList.item(i);

System.out.println(node.getNodeValue() == null ? node.getTextContent() : node.getNodeValue());

}

}

}

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java xpath evaluate_Java - XPath解析爬取内容

就爬取和解析内容而言，我们有太多选择。比如，很多人都觉得Jsoup就可以解决所有问题。无论是Http请求、DOM操作、CSS query selector筛选都非常方便。关键是这个selector，仅通过一个表达式筛选出的只能是一个node。如过我想获得一个text或者一个node的属性值，我需要从返回的element对象中再获取一次。而我恰好接到了一个有意思的需求，仅通过一个表达式表示想筛选的内...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。