在使用dom4j生成xml文件时,如果设置编码为gbk,如下面的代码,则不会出现中文乱码
OutputFormat format = OutputFormat.createPrettyPrint();
format.setEncoding("gb2312");
XMLWriter output = new XMLWriter(new FileWriter("event.xml"), format);
output.write(document);
output.close();
这时,生成的xml头文件为 “<?xml version="1.0" encoding="gb2312"?>”
但要将format编码设置为utf-8时,则会出现问题,即用文本文档打开生成xml,中文不会出现问题,但用高级记事本编辑器,如editplus和eclipse打开时,都会出现中文乱码,此时xml的头文件为
XML文件头部的encoding="utf-8"是告诉编辑器以什么编码方式解析文件内容,但改成utf-8出现乱码是因为:由于FileWriter默认的输出编码是ANSI编码,而Dom4j中的wirte方法提供的内容实际是以UTF-8保存的,因此造成了包括中文字符的XML文件无法正常阅读
所以可以修改为:
OutputFormat format = OutputFormat.createPrettyPrint();
java.io.OutputStream out = new java.io.FileOutputStream("event.xml");
java.io.Writer wr = new java.io.OutputStreamWriter(out, "UTF-8");
XMLWriter output = new XMLWriter(wr,format);
output.write(document);
wr.close();
out.close();
output.close();
其实就是用可改变编码的OutputStreamWriter代替了普通的FileWriter,就是这么简单。