软件项目交易

最新推荐文章于 2024-10-08 23:49:16 发布

jevons9999

最新推荐文章于 2024-10-08 23:49:16 发布

阅读量497

点赞数

文章标签： xml exception encoding string java 文档

本文链接：https://blog.csdn.net/jevons9999/article/details/2598328

版权

导读：
　　新一篇: 学习编程规则C++(一)
　　在用dom4j的时候发现有时会出现这个问题：无法以UTF-8保存xml文件，保存后再次读出的时候会报“Invalid byte 2 of 2-byte UTF-8 sequence.”这样一个错误，检查发现由dom4j生成的这个文件，在使用可正确处理XML编码的任何的编辑器中中文成乱码，从记事本查看并不会出现乱码会正确显示中文。让我很是头痛。。。。
　　试着使用GBK、gb2312编码来生成的xml文件却可以正常的被解析。因此怀疑的dom4j没有对utf-8编码进行处理。便开始查看dom4j的原代码。终于发现的问题所在，是自己程序的问题。
　　在dom4j的范例和网上流行的《DOM4J 使用简介》这篇教程中新建一个xml文档的代码都类似如下
　　public void createXML(String fileName) {
　　Document doc = org.dom4j.DocumentHelper.createDocument();
　　Element root = doc.addElement("book");
　　root.addAttribute("name", "我的图书");
　　Element childTmp;
　　childTmp = root.addElement("price");
　　childTmp.setText("21.22");
　　Element writer = root.addElement("author");
　　writer.setText("李四");
　　writer.addAttribute("ID", "001");
　　try {
　　org.dom4j.io.XMLWriter xmlWriter = new org.dom4j.io.XMLWriter(
　　new FileWriter(fileName));
　　xmlWriter.write(doc);
　　xmlWriter.close();
　　}
　　catch (Exception e) {
　　System.out.println(e);
　　}
　　}
　　在上面的代码中输出使用的是FileWriter对象进行文件的输出。这就是不能
　　正确进行文件编码的原因所在，java中由Writer类继承下来的子类没有提供编码
　　格式处理，所以dom4j也就无法对输出的文件进行正确的格式处理。这时候所保
　　存的文件会以系统的默认编码对文件进行保存，在中文版的window下java的默认
　　的编码为GBK，也就是所虽然我们标识了要将xml保存为utf-8格式但实际上文件
　　是以GBK格式来保存的，所以这也就是为什么能够我们使用GBK、GB2312编码来生
　　成xml文件能正确的被解析，而以UTF-8格式生成的文件不能被xml解析器所解析
　　的原因。
　　好了现在我们找到了原因所在了，我们来找解决办法吧。首先我们看看dom4j
　　是如何实现编码处理的
　　public XMLWriter(OutputStream out) throws
　　UnsupportedEncodingException {
　　//System.out.println("In OutputStream");
　　this.format = DEFAULT_FORMAT;
　　this.writer = createWriter(out, format.getEncoding());
　　this.autoFlush = true;
　　namespaceStack.push(Namespace.NO_NAMESPACE);
　　}
　　public XMLWriter(OutputStream out, OutputFormat format) throws
　　UnsupportedEncodingException {
　　//System.out.println("In OutputStream,OutputFormat");
　　this.format = format;
　　this.writer = createWriter(out, format.getEncoding());
　　this.autoFlush = true;
　　namespaceStack.push(Namespace.NO_NAMESPACE);
　　}
　　/**
　　* Get an OutputStreamWriter, use preferred encoding.
　　*/
　　protected Writer createWriter(OutputStream outStream, String
　　encoding) throws UnsupportedEncodingException {
　　return new BufferedWriter(
　　new OutputStreamWriter( outStream, encoding )
　　);
　　}
　　由上面的代码我们可以看出dom4j对编码并没有进行什么很复杂的处理，完全
　　通过java本身的功能来完成。所以我们在使用dom4j的来生成我们的XML文件时不
　　应该直接为在构建XMLWriter时，不应该直接为其赋一个Writer对象，而应该通
　　过一个OutputStream的子类对象来构建。也就是说在我们上面的代码中，不应该
　　用FileWriter对象来构建xml文档，而应该使用FileOutputStream对象来构建所
　　以将代码修改入下：
　　public void createXML(String fileName)
　　{
　　Document doc = org.dom4j.DocumentHelper.createDocument();
　　Element root = doc.addElement("book");
　　root.addAttribute("name", "我的图书");
　　Element childTmp;
　　childTmp = root.addElement("price");
　　childTmp.setText("21.22");
　　Element writer = root.addElement("author");
　　writer.setText("李四");
　　writer.addAttribute("ID", "001");
　　try {
　　//注意这里的修改
　　org.dom4j.io.XMLWriter xmlWriter = new
　　org.dom4j.io.XMLWriter(
　　new FileOutputStream(fileName));
　　xmlWriter.write(doc);
　　xmlWriter.close();
　　}
　　catch (Exception e)
　　{
　　System.out.println(e);
　　}
　　}
　　这样生成的代码就是中文的了

本文转自
http://blog.csdn.net/redez/archive/2005/11/11/527897.aspx