用JTidy转换HTML为XML

最新推荐文章于 2021-07-29 06:49:30 发布

tudopi

最新推荐文章于 2021-07-29 06:49:30 发布

阅读量4.2k

点赞数 1

分类专栏： XML 文章标签： html xhtml encoding xml properties java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tudopi/article/details/4946093

版权

最近要从网页中提取信息，想先把html转换成标准的xml格式，然后方便使用dom4j进行后续的分析，试用了不少现成的类库，JTidy、NekoHTML、HTML Parser、Jericho，最后还是使用了JTidy。

只是r8 snapshot还只是一个nightly builds，前面的r7版更已经是4年前的事了，这个项目就这样荒废了？可能是参与的人太少又或者是觉得已经成熟？

JTidy提供了一个语法检查器和标签补偿器，能够对各种乱七八糟的html进行修复，使之符合xhtml标准。

r8 snapshot相对于r7改变了一些参数的设置方法，特别是在字符编码处理上，用setInputEncoding和setOutputEncoding方法来确定输入和输出文件的字符编码，可以使用任何有效的Java编码名称，这就比以前的强多了。

总体上解析的结果还不错，只是有些地方还需要对生成文件进行手工调整，或者自己再编一段代码处理一下，已经不是大问题了。

一些常用的参数设置：

setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行<br />之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
从文件中读取配置信息
setConfigurationFromProps(java.util.Properties prop

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用JTidy转换HTML为XML

最近要从网页中提取信息，想先把html转换成标准的xml格式，然后方便使用dom4j进行后续的分析，试用了不少现成的类库，JTidy、NekoHTML、HTML Parser、Jericho，最后还是使用了JTidy。只是r8 snapshot还只是一个nightly builds，前面的r7版更已经是4年前的事了，这个项目就这样荒废了？可能是参与的人太少又或者是觉得已经成熟？JTid
复制链接

扫一扫

专栏目录

博客等级

码龄17年

19
原创

2
点赞

9
收藏

7
粉丝

关注

私信

热门文章

分类专栏

C/C++ 2篇
CSS 3篇
GUI
HTML 1篇
Javascript 3篇
Linux 1篇
Read 2篇
Ruby on Rails 9篇
XML 7篇
其他 1篇

最新评论

JTidy学习笔记
cs842813290: 在整理html方面我觉得jtidy还是优于nekohtml，我刚做过一个需求，html转pdf，用的是core-render做渲染，nekohtml转出来的效果，简直没有样式可言。jtidy虽然样式展示有点小瑕疵，但整体好于nekohtml。
排列图片IE 3px间隔
abcayad: 用li确实能解决问题不过extjs并没有使用li,它也没有间隔3px的问题,不知道他怎么实现的 http://dev.sencha.com/deploy/ext-4.0.1/examples/tree/reorder.html 不过不得不佩服你,够牛
安装ruby-debug
酷探: windows 的debug好麻烦……
ruby-debug命令
小白爱白菜: 很不错谢谢了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。