UTF-8中的BOM-带还是不带？

最新推荐文章于 2022-06-01 11:03:31 发布

Answer-3

最新推荐文章于 2022-06-01 11:03:31 发布

阅读量1.9k

点赞数

分类专栏： C++经验积累

C++经验积累专栏收录该内容

55 篇文章 3 订阅

订阅专栏

转自：http://blog.csdn.net/fanpei_moukoy/article/details/21464305

UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯）。

什么是BOM

BOM（byte-order mark），即字节顺序标记，它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记，用来识别Unicode文件的编码类型。对于UTF-8来说，BOM并不是必须的，因为BOM用来标记多字节编码文件的编码类型和字节顺序（big-endian或little-endian）。

在绝大多数编辑器中都看不到BOM字符，因为它们能理解Unicode，去掉了读取器看不到的题头信息。若要查看某个Unicode文件是否以BOM开头，可以使用十六进制编辑器。下表列出了不同编码所对应的BOM。

BOM Encoding
EF BB BF UTF-8
FE FF UTF-16 (big-endian)
FF FE UTF-16 (little-endian)
00 00 FE FF UTF-32 (big-endian)
FF FE 00 00 UTF-32 (little-endian)

BOM的来历

为了识别 Unicode 文件，Microsoft 建议所有的 Unicode 文件应该以 ZERO WIDTH NOBREAK SPACE（U+FEFF）字符开头。这作为一个“特征符”或“字节顺序标记（byte-order mark，BOM）”来识别文件中使用的编码和字节顺序。

Linux/UNIX 并没有使用 BOM，因为它会破坏现有的 ASCII 文件的语法约定。

带BOM和不带BOM的区别

「UTF-8」和「带 BOM 的 UTF-8」的区别就是有没有 BOM。即文件开头有没有 U+FEFF，也就是说有没有这个标记。

带还是不带？

如果你的编程平台需要跨平台编译，比如，会在linux平台上编译，而不是只在windows上运行，建议不带BOM，unicode标准就是不带，带BOM毕竟那是微软的那一套，带了会出现很大的问题。反之，如果你的程序只在windows平台上编译出windows程序，这个可有可无。
注意：这里所说的带还是不带，指的是：源码字符集(the source character set)-源码文件是使用何种编码保存的；

现在linux平台下的GCC 4.6及以上的版本已经可以支持带BOM的源码了！！！！！

所以之前出现的问题也可以不用冲突，带或者不带，以后就不会成为一个问题。

Answer-3

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
UTF-8中的BOM-带还是不带？

转自：http://blog.csdn.net/fanpei_moukoy/article/details/21464305UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Uni
复制链接

扫一扫