java w3c解析xml乱码_解决JTidy HTML=>XML中文乱码 | 学步园

首先将源网页用UTF-8重新编码放到一个新的文件,

还要注意加上:

tidy.setInputEncoding("UTF-8");

才能正确显示

源代码如下:

import java.net.URL;

import java.util.logging.Level;

import java.util.logging.Logger;

import java.io.*;

import org.w3c.tidy.Tidy;

public class xml {

private String url;

private String outFileName;

private String errOutFileName;

public xml(String url, String outFileName, String

errOutFileName) {

this.url = url;

this.outFileName = outFileName;

this.errOutFileName = errOutFileName;

}

public void convert() {

URL u;

BufferedInputStream in;

FileOutputStream out;

Logger log = Logger.getLogger("convert");

try {

u = new URL(url);

//Create input and output streams

in = new BufferedInputStream(u.openStream()); // 打开文件,转换为 UTF-8 编码

InputStreamReader isr = new InputStreamReader(in, "GB2312"); // 源文件编码为 gb2312

File tmpNewFile = File.createTempFile("GB2312",".html"); // 转换后的文件,设定编码为 utf-8

out = new FileOutputStream( tmpNewFile ); // 需要将文件转换为字符流

OutputStreamWriter osw = new OutputStreamWriter( out , "UTF-8"); // 指定目标编码为 utf-8

osw.write("<?xml version=/"1.0/" encoding=/"utf-8/"?>/n");

char[] buffer = new char[10240]; // 文件缓冲区

int len = 0; // 使用字符读取方式,循环读取源文件内容

while( (len = isr.read(buffer)) !=-1 ) // 转换后写入目标文件中

{

osw.write( buffer, 0, len);

}

osw.close(); // 转换完成

isr.close();

out.close();

in.close();

if( log.isLoggable( Level.INFO)){

log.info("HTML 文档转 UTF-8 编码完成!");

}

//设置tidy

Tidy tidy = new Tidy();

// Set file for error messages

tidy.setErrout(new PrintWriter(new FileWriter(errOutFileName), true));

// Tell Tidy to convert HTML to XML

tidy.setXmlOut(true);

tidy.setInputEncoding("UTF-8");

FileInputStream in0 = new FileInputStream( tmpNewFile );

FileOutputStream out0 = new FileOutputStream(outFileName);

//Convert files

tidy.parse(in0, out0);

//Clean up

in.close();

out.close();

tmpNewFile.delete(); // 删除临时文件

} catch (IOException e) {

System.out.println(this.toString() + e.toString());

}

}

public static void main(String[] args) {

/*

* Parameters are:

* URL of HTML file

* Filename of output file

* Filename of error file

*/

String u="http://www.baidu.com/";

String o="index.xml";

String e="error.xml";

xml t = new xml(u, o, e);

t.convert();

System.out.println("OK!");

}

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值