import java.io.*;
import java.net.URL;
public class HtmlToXML {
private String url;
private String outFileName;
private String errOutFileName;
public HtmlToXML(String url, String outFileName, String errOutFileName) {
this.url = url; //目标页面地址
this.outFileName = outFileName; //输出文件的地址和名称
this.errOutFileName = errOutFileName; //输出错误文件的地址和名称
}
public void convert() {
URL u;
BufferedInputStream in;
FileOutputStream out;
Tidy tidy = new Tidy();
tidy.setXmlOut(true);
tidy.setXmlPi(true); //添加 <?xml?> 标签 为输出的 XML 文件, 这些参数是可选的。
tidy.setXmlSpace(true);
tidy.setCharEncoding(Configuration.ISO2022); //这个很重要,如果没有它,就会出现中文乱码
/*
我看了一下源码,上面对charEncoding是这样规定的
/* character encodings */
public static final int RAW = 0;
public s