有关XML的编码问题

转载 2006年05月26日 15:19:00

        由于XML文档中可以包含外语字母,如挪威语 ??? 或法语 êèé,因此要让你的XML分解器理解这些字母,就应该把XML文档存储成Unicode(统一的字符编码标准)。

       1、Windows 95/98 记事本
  Windows 95/98 记事本不能将文件保存成Unicode 格式。你可以用Notepad 编辑和保存包含外语字母(如挪威语和法语的??? 和 êèé)的XML 文档,
  <?xml version="1.0"?>
  <note>
  <from>Jani</from>
  <to>Tove</to>
  <message>Norwegian: ???. French: êèé</message>
  </note>

  但是如果你保存文件并用IE 5.0打开它,就会得到一个错误信息。


  2、带有编码的Windows 95/98 记事本
  Windows 95/98 记事本文件必须用编码属性保存。 要避免这个错误,你可以向你的XML声明中加上一个编码属性,但是不能使用Unicode。

  这样的编码(用IE 5.0打开它), 就不会给出一个错误信息:
  <?xml version="1.0" encoding="windows-1252"?>

  这样的编码(IE 5.0打开它), 也不会给出错误信息:
  <?xml version="1.0" encoding="ISO-8859-1"?>

  这样的编码(IE 5.0打开它), 会给出一个错误信息:
  <?xml version="1.0" encoding="UTF-8"?>

  这样的编码(IE 5.0打开它), 会给出一个错误信息:
  <?xml version="1.0" encoding="UTF-16"?>


  3、Windows 2000 记事本
  Windows 2000 记事本可以将文件保存成Unicode。Windows 2000 中的记事本编辑器支持 Unicode。如果你选择要将这个XML文件保存成Unicode(注意文档中不包含任何编码属性):

  <?xml version="1.0"?>
  <note>
  <from>Jani</from>
  <to>Tove</to>
  <message>Norwegian: ???. French: êèé</message>
  </note>

  你可以用IE 5.0 打开它,而不会得到错误信息。


  4、带有编码的Windows 2000 记事本
 Windows 2000 记事本用"UTF-16"编码将文件保存为Unicode。如果你向保存为Unicode的XML文件中增加一个编码属性,windows 编码值就会产生一个错误。

  这样的编码(IE 5.0打开它), 会给出一个错误信息:
  < ?xml version="1.0" encoding="windows-1252"?>

  这样的编码(IE 5.0打开它), 会给出一个错误信息:
  < ?xml version="1.0" encoding="ISO-8859-1"?>

  这样的编码(IE 5.0打开它), 会给出一个错误信息:
  < ?xml version="1.0" encoding="UTF-8"?>

  这样的编码(IE 5.0打开它), 不会给出一个错误信息:
  < ?xml version="1.0" encoding="UTF-16"?>

  5、错误信息
  如果你试图向Internet Explorer 5中装载一个XML文档,你会得到两个不同的错误信息表示编码的问题:

        在文本内容中发现了一个无效字符: 如果XML文档中的一个字符与编码属性不匹配,你就会得到这个错误信息。通常,如果你的XML 文档中包含外语字母并且文件是用记事本这样的单字节编码编辑器保存的,而且没有规定编码属性的话,就会得到这样的错误信息。从当前编码转换到不支持的指定编码: 如果你的文件保存为Unicode/UTF-16,但是编码属性指定了单字节编码,例如Windows-1252、 ISO-8859-1或UTF-8,你就会得到这样的错误信息。另外如果你的文档是用单字节编码保存的,但是编码属性指定了双字节编码例如UTF-16的话,你也会得到这样的错误信息。
  
        结论
        结论就是编码属性必须指定保存文档时所使用的编码。为避免这类错误,我的建议是: 总是将XML文件保存成没有任何编码信息的Unicode。使用一个支持Unicode的编辑器(Windows 2000 记事本就行),总是省略编码属性。

相关文章推荐

eclipse配置tomcat后修改server.xml文件(如编码等)无效问题

我们用eclipse配置好tomcat后,在处理中文乱码或是配置数据源时,我们要修改Tomcat下的server.xml等文件。 修改后重启Tomcat服务器时发现xml文件又被还原了。 因为Tomc...

解决NSXmlParser无法解析非utf-8编码的XML问题的方法

ios开发中经常会用到解析XML,但是iOS提供的NSXmlParser只能解析encoding是utf-8的XML文件。即xml文件开头必须是 在中文网页中,经常会碰到gb2312或GBK...

linq to xml 中,html编码的问题

====================================================== 注:本文源代码点此下载 =============================...

建立xml文件时遇到的编码问题和解决方法

建立xml文件时遇到的问题和解决方法 建立txt文件,输入如下格式的代码,再改后缀名为.xml格式   当用ie打开时,会报错如下:   解决方法:  把第一行的encoding的编码方式...

java xml文件解析时遇到的编码问题

com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException

xml编码/解码类

  • 2014年12月12日 14:07
  • 2KB
  • 下载

特殊字符在XML中的Unicode编码

特殊字符在XML中的Unicode编码
  • fwt336
  • fwt336
  • 2014年12月09日 11:21
  • 1426

XML动态区间编码方法.kdh

  • 2012年07月18日 11:57
  • 304KB
  • 下载

产品编码 XML 文档

  • 2012年04月26日 14:32
  • 936B
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:有关XML的编码问题
举报原因:
原因补充:

(最多只允许输入30个字)