XML中文件编码规则

最新推荐文章于 2022-11-25 15:06:35 发布

龙行天下之Sky

最新推荐文章于 2022-11-25 15:06:35 发布

阅读量1.9k

点赞数 1

分类专栏：学习点滴

本文链接：https://blog.csdn.net/sky101010ws/article/details/79969784

版权

学习点滴专栏收录该内容

75 篇文章 2 订阅

订阅专栏

W3C定义了三条XML解析器如何正确读取XML文件的编码的规则：

1，如果文挡有BOM(字节顺序标记，一般来说，如果保存为unicode格式，则包含BOM，ANSI则无)，就定义了文件编码
2，如果没有BOM，就查看XML声明的编码属性
3，如果上述两个都没有，就假定XML文挡采用UTF-8编码

BOM：byte order mark

BOM设计出来不是用来支持HTML和XML的。要识别文本编码，HTML有charset属性，XML有encoding属性，没必要拉BOM撑场面。

UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。
所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯）。
BOM（byte order mark）是为 UTF-16 和 UTF-32 准备的，用于标记字节序（byte order）。微软在 UTF-8 中使用 BOM 是因为这样可以把 UTF-8 和 ASCII 等编码明确区分开，但这样的文件在 Windows 之外的操作系统里会带来问题。

可参考： https://www.zhihu.com/question/20167122