HtmlCleaner,Html解析专家

最新推荐文章于 2019-01-03 19:27:00 发布

weixin_34101229

最新推荐文章于 2019-01-03 19:27:00 发布

阅读量101

点赞数

文章标签： java

原文链接：http://blog.51cto.com/danke/88265

版权

通常互联网上的HTML 页面都是不规则的，非结构化的页面。如果我们需要访问或者抽取里面的内容的话，我们需要分析HTML 页面，去除垃圾。

而最近新发布的 HtmlCleaner 就是这样一个工具. 能够帮助我们将HTML 文档转化为结构化的XML 文档。虽然目前已经有了类似这样的工具，但是HtmlCleaner 能够完成几乎所有的HTML 转换，而且不到30k ，这是他们值得称道的地方。

HtmlCleaner 是一个开源的Html 文档解析器。HtmlCleaner 能够安全的解析和转换web 上的HTML 到标准的XML ，重新排序每个元素，然后生成结构良好(Well-Formed) 的XML 文档。默认它遵循的规则是类似于大部份web 浏览器为创文档对象模型所使用的规则。然后，用户可以提供自定义tag 和规则组来进行过滤和匹配。它被设计的小，快速，灵活而且独立。HtmlCleaner 也可用在Java 代码中，当命令行工具或Ant 任务。解析后编程轻量级文档对象，能够很容易的被转换到DOM 或者JDom 标准文档，或者通过各种方式( 压缩，打印) 连续输出XML 。

新版本的重要功能更新包括：
1 .HtmlCleaner 的文档对象模型现在拥有了一些函数，处理节点和属性，所以现在在序列化之前搜索或者编辑是非常容易的。
2. 提供基本HtmlCleaner DOM 的XPath 支持
3. 使用XML 配置温江让创建定制tag 变得更加容易
4. 修复多个bug 以及API 改进

更多详细信息： HTML Parser工具HtmlCleaner 2.0发布

本文首发与 javaread.com

转载于:https://blog.51cto.com/danke/88265

weixin_34101229

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HtmlCleaner,Html解析专家

通常互联网上的HTML页面都是不规则的，非结构化的页面。如果我们需要访问或者抽取里面的内容的话，我们需要分析HTML页面，去除垃圾。而最近新发布的 HtmlCleaner 就是这样一个工具. 能够帮助我们将HTML 文档转化为结构化的XML文档。虽然目前已经有了类似这样的工具，但是HtmlCleaner 能够完成几乎所有的HTML转换，而且不到30k，这是他们值得称道的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。