HTML指的是超文本标记语言 (Hyper Text Markup Language),html不强制要求每个标记都是关闭的,比如img,你可以写成。换行符br,可以写成
。
但有时,html需要转成其他文档(如doc、pdf)时,需要html是标准的、闭合的html,也就是可扩展的超文本标记语言(XHTML)。这时,需要将html转换为XHTML。
这里介绍两种html转换xhtml的方法。
一、使用JTidy
JTidy是一个html检查/格式化输出/Dom解析工具。
官网:http://jtidy.sourceforge.net/index.html
1、首先你需要下载JTidy,
下载地址:http://mvnrepository.com/artifact/net.sf.jtidy/jtidy/r938
也可以使用基于maven开发,maven依赖:
net.sf.jtidy
jtidy
r938
2、代码
public class HtmlToXHtmlJtidy {
public static String html2xhtml(String html) {
ByteArrayInputStream stream = new ByteArrayInputStream(html.getBytes());
ByteArrayOutputStream tidyOutStream = new ByteArrayOutputStream();
// 实例