什么是UTF-8 BOM头

最新推荐文章于 2024-07-25 22:42:19 发布

࿐ཉི༗࿆禹衡爸爸༗࿆ཉི࿐

最新推荐文章于 2024-07-25 22:42:19 发布

阅读量750

点赞数

分类专栏： C# 文章标签： C# csv excel

本文链接：https://blog.csdn.net/qq_39488878/article/details/121542935

版权

C# 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

BOM —— Byte Order Mark，中文名译作“字节顺序标记”。

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。在UCS 编码中有一个叫做 "Zero Width No-Break Space"，中文译名作“零宽无间断间隔”的字符，它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符，所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前，先传输字符 "Zero Width No-Break Space"。这样如果接收者收到 FEFF，就表明这个字节流是 Big-Endian 的；如果收到FFFE，就表明这个字节流是 Little- Endian 的。因此字符 "Zero Width No-Break Space" 又被称作 BOM(即Byte Order Mark)。

UTF-8 BOM头是什么

UTF-8不需要 BOM 来表明字节顺序，但可以用 BOM 来表明编码方式。字符 "Zero Width No-Break Space" 的 UTF-8 编码是 EF BB BF。所以如果接收者收到以 EF BB BF 开头的字节流，就知道这是 UTF-8编码。

因此UTF-8编码的字符串开头处的三个bytes 0xef,0xbb,0xbf就称为UTF-8 BOM头。

解决excel打开没有BOM头的csv文件乱码

WINDOWS自带的记事本，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入UTF-8 BOM头。记事本等编辑器通过它来识别这个文件是否以UTF-8编码(当然即便没有UTF-8 BOM头记事本也能通过其它方式正确识别UTF-8编码)。

如果一个UTF-8编码的字符串的开头处没有BOM头会怎么呢？
比如用C#创建一个csv文件，里面保存以UTF-8编码的中文字符串(此时没有UTF-8 BOM头)。
记事本能够识别，但是excel乱码：

解决办法在生成字符串时手动把UTF-8 BOM头添加在字符串的开头处，下面是C#代码：

if (!File.Exists(csvFilePath))
{
        byte[] bs = { (byte)0xEF, (byte)0xBB, (byte)0xBF };
        using (FileStream logFile = new FileStream(csvFilePath, FileMode.OpenOrCreate, FileAccess.Write, FileShare.Write))
         {
           logFile.Seek(0, SeekOrigin.End);
           logFile.Write(bs, 0, bs.Length);
         }
}

编码的字节顺序标记（引自百度百科）

编码	表示 (十六进制)	表示 (十进制)
UTF-8	EF BB BF	239 187 191
UTF-16（大端序）	FE FF	254 255
UTF-16（小端序）	FF FE	255 254
UTF-32（大端序）	00 00 FE FF	0 0 254 255
UTF-32（小端序）	FF FE 00 00	255 254 0 0
UTF-7	2B 2F 76和以下的一个字节：[ 38 \| 39 \| 2B \| 2F ]	43 47 118和以下的一个字节：[ 56 \| 57 \| 43 \| 47 ]
en:UTF-1	F7 64 4C	247 100 76
en:UTF-EBCDIC	DD 73 66 73	221 115 102 115
en:Standard Compression Scheme for Unicode	0E FE FF	14 254 255
en:BOCU-1	FB EE 28及可能跟随着FF	251 238 40及可能跟随着255
GB-18030	84 31 95 33	132 49 149 51

࿐ཉི༗࿆禹衡爸爸༗࿆ཉི࿐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
什么是UTF-8 BOM头

BOM是什么Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。在UCS 编码中有一个叫做 "Zero Width No-Break Space"，中文译名作“零宽无间断间隔”的字符，它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符，所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前，先传输字符 "Zero Width No-Br
复制链接

扫一扫

专栏目录