用JTidy转换HTML为XML

最新推荐文章于 2021-07-29 06:49:30 发布

tudopi

最新推荐文章于 2021-07-29 06:49:30 发布

阅读量4.2k

点赞数 1

分类专栏： XML 文章标签： html xhtml encoding xml properties java

本文链接：https://blog.csdn.net/tudopi/article/details/4946093

版权

本文介绍了如何使用JTidy库将不规范的HTML转换为标准的XML格式，以方便后续通过DOM4J进行信息提取和分析。JTidy具备HTML修复功能，支持自定义字符编码，并提供了丰富的参数设置选项，如设置输出格式、处理重复属性等。虽然JTidy项目更新较慢，但在实际应用中仍能有效完成HTML到XML的转换工作。

摘要由CSDN通过智能技术生成

最近要从网页中提取信息，想先把html转换成标准的xml格式，然后方便使用dom4j进行后续的分析，试用了不少现成的类库，JTidy、NekoHTML、HTML Parser、Jericho，最后还是使用了JTidy。

只是r8 snapshot还只是一个nightly builds，前面的r7版更已经是4年前的事了，这个项目就这样荒废了？可能是参与的人太少又或者是觉得已经成熟？

JTidy提供了一个语法检查器和标签补偿器，能够对各种乱七八糟的html进行修复，使之符合xhtml标准。

r8 snapshot相对于r7改变了一些参数的设置方法，特别是在字符编码处理上，用setInputEncoding和setOutputEncoding方法来确定输入和输出文件的字符编码，可以使用任何有效的Java编码名称，这就比以前的强多了。

总体上解析的结果还不错，只是有些地方还需要对生成文件进行手工调整，或者自己再编一段代码处理一下，已经不是大问题了。

一些常用的参数设置：

setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行<br />之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
从文件中读取配置信息
setConfigurationFromProps(java.util.Properties prop