java的html解析器_Jsoup 功能强大的 JavaHTML 解析器 - 文章

Jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

8fff9a46fd2dab4a5eeb4b7b4d5364ae.png

Jsoup 遵循WHATWG HTML5规范,解析某些HTML带DOM中,和浏览器做相同的事情。

Jsoup特点

可以解析通过URL、文件或字符串获取的HTML

发现和提取数据,使用DOM遍历或CSS选择器

操作HTML元素、属性、文本

干净的用户提交的内容对安全的白名单,防止XSS攻击

整洁的HTML输出

Jsoup被设计来兼容处理各种HTML代码,这意味着即使你的HTML代码不是完整的结构、或者是包含无效的标签,Jsoup都可以很好的解析,从最原始的数据作为来源,生成合适的DOM文档树。

Jsoup运行与Java 1.5及以上的版本。

在线示例

那维基百科的网页作为示例源数据,从新闻中的部分到一个列表中的元素选择标题:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();

Elements newsHeadlines = doc.select("#mp-itn b a");

开放源代码

Jsoup是一个开放源代码的项目,遵循 MIT 协议开放,源代码托管在 GitHub 。

Jsoup 良好的可扩展性API 设计,你可以通过选择器的定义来开发出非常强大的HTML 解析功能。再加上jsoup 项目本身的开发也非常活跃,因此如果你正在使用Java ,需要对HTML 进行处理,不妨试试。

相关链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值