JAVA爬虫-Jsoup + JsoupXPath

JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument。JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节点。

需要在引入Jsoup依赖之后引入JsoupXpath依赖

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.11.3</version>
</dependency>

<dependency>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>JsoupXpath</artifactId>
    <version>2.2.1</version>
</dependency>

创建JXDocument的方法:

//使用Jsoup的Document对象创建JXDocument
JXDocument jxDocument = JXDocument.create(Document document);
//使用Jsoup的Elements对象创建JXDocument
JXDocument jxDocument = new JXDocument(Elements elements);
//使用HTML文本创建JXDocument
String html = "<span style=\\\"color: #5191ce;\\\" >网页设计师</span>";
JXDocument jxDocument = JXDocument.create(html);

常用方法

//找到路径返回所有满足的节点对象集合,类似Document的select()方法
List<JXNode> selN(String  xpath)
//找到路径返回的第一个满足的节点对象,类似Document的selectFirst()方法
JXNode selNOne(String xpath)

在控制台里右击标签,可以复制到这个标签的XPath。

复制出来的XPath如下所示,根据这个XPath只能获取到刚刚选中的那个<li>

//*[@id="internationalHeader"]/div[1]/div/div[1]/ul/li[9]

根据XPath的规范修改之后,就可以获取到这个<ul>下全部的<li>。

//*[@id="internationalHeader"]/div[1]/div/div[1]/ul/li[*]

例如:

 JXNode可以调用getElement或asElement()获得Jsoup的Element对象

public static void main(String[] args) throws IOException {
	Document document = Jsoup.connect("https://www.bilibili.com/").get();
	JXDocument jxDocument = JXDocument.create(document);
	List<JXNode> jxNodes = jxDocument.selN("//*[@id=\"internationalHeader\"]/div[1]/div/div[1]/ul/li[*]");
	for(JXNode jxNode : jxNodes){
		Element element = jxNode.asElement();
		System.out.println(element.text());
	}
}

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
要使用Jsoup获取图片,可以按照以下步骤进行操作: 1. 使用Jsoup.connect()方法连接到指定的URL。 2. 使用Jsoup.parse()方法解析HTML文档。 3. 使用doc.select()方法选择包含图片的元素。 4. 使用element.attr()方法获取图片的URL。 5. 使用Jsoup.connect()方法连接到图片的URL。 6. 使用Response.bodyAsBytes()方法获取图片的字节数组。 下面是一个示例代码,可以获取指定网页中的所有图片: ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.jsoup.Connection.Response; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; public class ImageDownloader { public static void main(String[] args) throws IOException { String url = "https://www.example.com"; Document doc = Jsoup.connect(url).get(); Elements imgs = doc.select("img[src~=(?i)\\.(png|jpe?g|gif)]"); for (Element img : imgs) { String imgUrl = img.attr("abs:src"); Response resultImageResponse = Jsoup.connect(imgUrl) .ignoreContentType(true).execute(); InputStream inputStream = resultImageResponse.bodyStream(); OutputStream outputStream = new FileOutputStream( "image_" + System.currentTimeMillis() + ".jpg"); int bytesRead = -1; byte[] buffer = new byte[4096]; while ((bytesRead = inputStream.read(buffer)) != -1) { outputStream.write(buffer, 0, bytesRead); } outputStream.close(); inputStream.close(); } } } ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值