通常互联网上的HTML 页面都是不规则的, 非结构化的页面。如果我们需要访问或者抽取里面的内容的话,我们需要分析HTML 页面,去除垃圾。
而最近新发布的 HtmlCleaner 就是这样一个工具. 能够帮助我们将HTML 文档 转化为结构化的XML 文档。虽然目前已经有了类似这样的工具,但是HtmlCleaner 能够完成几乎所有的HTML 转换,而且不到30k ,这是他们值得称道的地方。
HtmlCleaner 是一个开源的Html 文档解析器。HtmlCleaner 能够安全的解析和转换web 上的HTML 到标准的XML ,重新排序每个元素,然后生成结构良好(Well-Formed) XML 文档。默认它遵循的规则是类似于大部份web 浏览器为创文档对象模型所使用的规则。然后,用户可以提供自定义tag 和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner 也可用在Java 代码中,当命令行工具或Ant 任务。 解析后编程轻量级文档对象,能够很容易的被转换到DOM 或者JDom 标准文档,或者通过各种方式( 压缩,打印) 连续输出XML

新版本的重要功能更新包括:
1 .HtmlCleaner 的文档对象模型现在拥有了一些函数,处理节点和属性,所以现在在序列化之前搜索或者编辑是非常容易的。
2. 提供基本HtmlCleaner DOM XPath 支持
3. 使用XML 配置温江让创建定制tag 变得更加容易
4. 修复多个bug 以及API 改进
更多详细信息: HTML Parser工具HtmlCleaner 2.0发布

本文首发与 javaread.com