import org.w3c.tidy.Tidy;
import java.io.*;
import java.net.URL;
public class HtmlToXML {
private String url;
private String outFileName;
private String errOutFileName;
public HtmlToXML(String url, String outFileName, String errOutFileName) {
this.url = url; //目标页面地址
this.outFileName = outFileName; //输出文件的地址和名称
this.errOutFileName = errOutFileName; //输出错误文件的地址和名称
}
public void convert() {
URL u;
BufferedInputStream in;
FileOutputStream out;
Tidy tidy = new Tidy();
tidy.setXmlOut(true);
tidy.setXmlPi(true); //添加 <?xml?> 标签 为输出的 XML 文件, 这些参数是可选的。
tidy.setXmlSpace(true);
tidy.setCharEncoding(Configuration.ISO2022); //这个很重要,如果没有它,就会出现中文乱码
/*
我看了一下源码,上面对charEncoding是这样规定的
/* character encodings */
public static final int RAW = 0;
public static final int ASCII = 1;
public static final int LATIN1 = 2;
public static final int UTF8 = 3;
public static final int ISO2022 = 4;
public static final int MACROMAN = 5;
*/
try {
//错误文件的输入地址和名称
tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));
u = new URL(url);
//建立输入和输出文件
in = new BufferedInputStream(u.openStream());
out = new FileOutputStream(outFileName);
//文件转换
tidy.parse(in, out);
//资源释放
in.close();
out.close();
} catch (IOException e) {
System.out.println(this.toString() + e.toString());
}
}
public static void main(String[] args) {
/*
* Parameters are:
* URL of HTML file
* Filename of output file
* Filename of error file
*/
HtmlToXML t = new HtmlToXML(“http://www.baidu.com”, “c:/jtidy.htm”, “c:/jtidyError.htm”);
t.convert();
}
}
大概看了一下 JTidy 的 API 文档,里面还是有许多内容的,这里的这个例子只是入门,对于真正的 JTidy 使用还有许多路走,有时间大家可以看一下 JTidy 的API文档
-------------------------------------
看了一下JTidy的api文档,现在网友的一些Tidy的方法明细列出来,供参考使用,漏掉的方法可以参考API文档。
public void setIndentContent(boolean IndentContent) 是否使用缩进
public void setSmartIndent(boolean SmartIndent) 节点结束后,是否另起一行
public void setQuoteMarks(boolean QuoteMarks) 用 "替换 "
public void setQuoteNbsp(boolean QuoteNbsp)
public Document parseDOM(java.io.InputStream in,java.io.OutputStream out) 转换为DOM对象
setAltText(java.lang.String altText)
加上默认的alt属性值
setBreakBeforeBR(boolean breakBeforeBR)
在换行
之前加一空行
setCharEncoding(int charencoding)
已废弃
setConfigurationFromFile(java.lang.String filename)
从文件中读取配置信息
setConfigurationFromProps(java.util.Properties props)
从properties中读取配置信息
setErrfile(java.lang.String errfile)
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数前端工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Web前端开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(资料价值较高,非无偿)
![](https://i-blog.csdnimg.cn/blog_migrate/bde22bfe61ff91743367b97831e007e9.jpeg)
最后
javascript是前端必要掌握的真正算得上是编程语言的语言,学会灵活运用javascript,将对以后学习工作有非常大的帮助。掌握它最重要的首先是学习好基础知识,而后通过不断的实战来提升我们的编程技巧和逻辑思维。这一块学习是持续的,直到我们真正掌握它并且能够灵活运用它。如果最开始学习一两遍之后,发现暂时没有提升的空间,我们可以暂时放一放。继续下面的学习,javascript贯穿我们前端工作中,在之后的学习实现里也会遇到和锻炼到。真正学习起来并不难理解,关键是灵活运用。
script贯穿我们前端工作中,在之后的学习实现里也会遇到和锻炼到。真正学习起来并不难理解,关键是灵活运用。
[外链图片转存中…(img-lC7wC22z-1711724397331)]
[外链图片转存中…(img-y5xQZELs-1711724397331)]