jsoup遍历html,使用Jsoup解析和遍历一个HTML文档

最新推荐文章于 2024-04-30 14:28:06 发布

sony aqua

最新推荐文章于 2024-04-30 14:28:06 发布

阅读量391

点赞数

文章标签： jsoup遍历html

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

本文将使用Jsoup来解析和遍历一个HTML文档，希望通过本文大家对Jsoup爬虫有一个初步的认识和理解。

如何解析一个HTML文档，看下面的代码：String html = "

First parse"

+ "

Parsed HTML into a doc.

";

Document doc = Jsoup.parse(html);

其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：没有关闭的标签 (比如：

Lorem

Ipsum parses to

Lorem

Ipsum

)

隐式标签 (比如. 它可以自动将

Table data包装成

?)

创建可靠的文档结构(html标签包含head 和 body，在head只出现恰当的元素)

一个文档的对象模型文档由多个Elements和TextNodes组成 (以及其它辅助nodes：详细可查看：nodes package tree).

一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。

参考资料

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jsoup遍历html,使用Jsoup解析和遍历一个HTML文档

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。本文将使用Jsoup来解析和遍历一个HTML文档，希望通过本文大家对Jsoup爬虫有一个初步的认识和理解。如何解析一个HTML文档，看下面的代码：Stringhtml="Firstparse"+"Pa...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。