XML乱码问题和encoding的理解这篇博客已经讲的很明白了,总结一下读取XML选取编码方式的逻辑就是:
- 如果文挡有 BOM ,就定义了文件编码,则采用此编码;
- 如果没有 BOM ,就查看文件头 encoding 声明的编码,如声明为
<?xml version="1.0"
,则采用 GB2312 编码;
encoding="GB2312"?> - 如果上述两个都没有,就默认采用 UTF-8 编码。
需要补充的有:
- Linux如何查看文件编码:
file -i config.xml
,结果示例config.xml: application/xml; charset=utf-8
,可知此文件的编码是 UTF-8 。 - 为什么 ISO-8859-1 编码的文件可以被 GBK 或 GB2312 编码正确读取呢?原因是 GBK 和 GB2312 专门用来表示汉字,是双字节编码,而英文字母编码和 ISO-8859-1 一致(兼容 ISO-8859-1 编码)。其中 GBK 编码能够用来同时表示繁体字和简体字,而 GB2312 只能表示简体字,GBK 是兼容 GB2312 编码的。