通常互联网上的HTML
页面都是不规则的,
非结构化的页面。如果我们需要访问或者抽取里面的内容的话,我们需要分析HTML
页面,去除垃圾。
本文首发与 javaread.com
而最近新发布的
HtmlCleaner
就是这样一个工具.
能够帮助我们将HTML
文档
转化为结构化的XML
文档。虽然目前已经有了类似这样的工具,但是HtmlCleaner
能够完成几乎所有的HTML
转换,而且不到30k
,这是他们值得称道的地方。
HtmlCleaner
是一个开源的Html
文档解析器。HtmlCleaner
能够安全的解析和转换web
上的HTML
到标准的XML
,重新排序每个元素,然后生成结构良好(Well-Formed)
的XML
文档。默认它遵循的规则是类似于大部份web
浏览器为创文档对象模型所使用的规则。然后,用户可以提供自定义tag
和规则组来进行过滤和匹配。它被设计的小,快速,灵活而且独立。HtmlCleaner
也可用在Java
代码中,当命令行工具或Ant
任务。
解析后编程轻量级文档对象,能够很容易的被转换到DOM
或者JDom
标准文档,或者通过各种方式(
压缩,打印)
连续输出XML
。
新版本的重要功能更新包括:
1 .HtmlCleaner 的文档对象模型现在拥有了一些函数,处理节点和属性,所以现在在序列化之前搜索或者编辑是非常容易的。
2. 提供基本HtmlCleaner DOM 的XPath 支持
3. 使用XML 配置温江让创建定制tag 变得更加容易
4. 修复多个bug 以及API 改进
更多详细信息:
HTML Parser工具HtmlCleaner 2.0发布
新版本的重要功能更新包括:
1 .HtmlCleaner 的文档对象模型现在拥有了一些函数,处理节点和属性,所以现在在序列化之前搜索或者编辑是非常容易的。
2. 提供基本HtmlCleaner DOM 的XPath 支持
3. 使用XML 配置温江让创建定制tag 变得更加容易
4. 修复多个bug 以及API 改进
本文首发与 javaread.com
转载于:https://blog.51cto.com/danke/88265