带你五分钟了解jsoup教程

最新推荐文章于 2024-05-31 11:33:31 发布

一只码农-小俊

最新推荐文章于 2024-05-31 11:33:31 发布

阅读量504

点赞数

文章标签：爬虫 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62222133/article/details/120894839

版权

本文介绍了jsoup作为Java HTML解析库的功能和用法，包括从HTML字符串、URL或文件中解析Document对象，使用DOM方式和CSS选择器选取元素，以及提取所需内容的方法。虽然jsoup对HTTP协议支持有限，但在HTML解析上表现出色。

摘要由CSDN通过智能技术生成

jsoup是一款Java的HTML解析器，主要用来对HTML解析。

在爬虫的时候，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容，

就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。

虽然jsoup也支持从某个地址直接去爬取网页源码，但是只支持HTTP，HTTPS协议，支持不够丰富。

所以，主要还是用来对HTML进行解析。

其中，要被解析的HTML可以是一个HTML的字符串，可以是一个URL，可以是一个文件。

org.jsoup.Jsoup把输入的HTML转换成一个org.jsoup.nodes.Document对象，然后从Document对象中取出想要的元素。

org.jsoup.nodes.Document继承了org.jsoup.nodes.Element，Element又继承了org.jsoup.nodes.Node类。里面提供了丰富的方法来获取HTML的元素。

从URL获取HTML来解析

Document doc = Jsoup.connect("http://www.baidu.com/").get();
String title = doc.title();

其中Jsoup.connect("xxx")方法返回一个org.jsoup.Connection对象。
在Connection对象中，我们可以执行get或者post来执行请求。但是在执行请求之前，
我们可以使用Connection对象来设置一些请求信息。比如：头信息，cookie，请求等待时间，代理等等来模拟浏览器的行为。

Document doc = Js

最低0.47元/天解锁文章

一只码农-小俊

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
带你五分钟了解jsoup教程

jsoup是一款Java的HTML解析器，主要用来对HTML解析。在爬虫的时候，当我们用HttpClient之类的框架，获取到网页源码之后，需要从网页源码中取出我们想要的内容，就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某个地址直接去爬取网页源码，但是只支持HTTP，HTTPS协议，支持不够丰富。所以，主要还是用来对HTML进行解析。其中，要被解析的HTML可以是一个HTML的字符串，可以是一个URL，可以是一个文件。org.jsoup.Jso
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。