JAVA爬虫-Jsoup + JsoupXPath

最新推荐文章于 2022-08-15 08:43:26 发布

猴子敲代码

最新推荐文章于 2022-08-15 08:43:26 发布

阅读量913

点赞数

分类专栏：爬虫文章标签： java 爬虫 jsoup

本文链接：https://blog.csdn.net/test253506088/article/details/119538300

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

JsoupXPath是基于Jsoup的拓展，使用路径的形式解析XML和HTML文档。核心类为JXDocument。JsoupXPath的节点对象JXNode不仅可以获取标签节点，还可以获取属性节点。

需要在引入Jsoup依赖之后引入JsoupXpath依赖

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

<dependency>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>JsoupXpath</artifactId>
    <version>2.2.1</version>
</dependency>

创建JXDocument的方法：

//使用Jsoup的Document对象创建JXDocument
JXDocument jxDocument = JXDocument.create(Document document);
//使用Jsoup的Elements对象创建JXDocument
JXDocument jxDocument = new JXDocument(Elements elements);
//使用HTML文本创建JXDocument
String html = "<span style=\\\"color: #5191ce;\\\" >网页设计师</span>";
JXDocument jxDocument = JXDocument.create(html);

常用方法

//找到路径返回所有满足的节点对象集合，类似Document的select()方法
List<JXNode> selN(String  xpath)
//找到路径返回的第一个满足的节点对象，类似Document的selectFirst()方法
JXNode selNOne(String xpath)

在控制台里右击标签，可以复制到这个标签的XPath。

复制出来的XPath如下所示，根据这个XPath只能获取到刚刚选中的那个<li>

//*[@id="internationalHeader"]/div[1]/div/div[1]/ul/li[9]

根据XPath的规范修改之后，就可以获取到这个<ul>下全部的<li>。

//*[@id="internationalHeader"]/div[1]/div/div[1]/ul/li[*]

例如：

JXNode可以调用getElement或asElement()获得Jsoup的Element对象

public static void main(String[] args) throws IOException {
	Document document = Jsoup.connect("https://www.bilibili.com/").get();
	JXDocument jxDocument = JXDocument.create(document);
	List<JXNode> jxNodes = jxDocument.selN("//*[@id=\"internationalHeader\"]/div[1]/div/div[1]/ul/li[*]");
	for(JXNode jxNode : jxNodes){
		Element element = jxNode.asElement();
		System.out.println(element.text());
	}
}

猴子敲代码

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
JAVA爬虫-Jsoup + JsoupXPath

JsoupXPath是基于Jsoup的拓展，使用路径的形式解析XML和HTML文档。核心类为JXDocument。JsoupXPath的节点对象JXNode不仅可以获取标签节点，还可以获取属性节点。需要在引入Jsoup依赖之后引入JsoupXpath依赖<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versi
复制链接

扫一扫