什么是UTF-8 BOM头

BOM —— Byte Order Mark,中文名译作“字节顺序标记”。

Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。在UCS 编码中有一个叫做 "Zero Width No-Break Space",中文译名作“零宽无间断间隔”的字符,它的编码是 FEFF。而 FFFE 在 UCS 中是不存在的字符,所以不应该出现在实际传输中。UCS 规范建议我们在传输字节流前,先传输字符 "Zero Width No-Break Space"。这样如果接收者收到 FEFF,就表明这个字节流是 Big-Endian 的;如果收到FFFE,就表明这个字节流是 Little- Endian 的。因此字符 "Zero Width No-Break Space" 又被称作 BOM(即Byte Order Mark)。

UTF-8 BOM头是什么

UTF-8不需要 BOM 来表明字节顺序,但可以用 BOM 来表明编码方式。字符 "Zero Width No-Break Space" 的 UTF-8 编码是 EF BB BF。所以如果接收者收到以 EF BB BF 开头的字节流,就知道这是 UTF-8编码。

因此UTF-8编码的字符串开头处的三个bytes 0xef,0xbb,0xbf就称为UTF-8 BOM头。

解决excel打开没有BOM头的csv文件乱码

WINDOWS自带的记事本,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入UTF-8 BOM头。记事本等编辑器通过它来识别这个文件是否以UTF-8编码(当然即便没有UTF-8 BOM头记事本也能通过其它方式正确识别UTF-8编码)。

如果一个UTF-8编码的字符串的开头处没有BOM头会怎么呢?
比如用C#创建一个csv文件,里面保存以UTF-8编码的中文字符串(此时没有UTF-8 BOM头)。
记事本能够识别,但是excel乱码:

解决办法 在生成字符串时手动把UTF-8 BOM头添加在字符串的开头处,下面是C#代码:

if (!File.Exists(csvFilePath))
{
        byte[] bs = { (byte)0xEF, (byte)0xBB, (byte)0xBF };
        using (FileStream logFile = new FileStream(csvFilePath, FileMode.OpenOrCreate, FileAccess.Write, FileShare.Write))
         {
           logFile.Seek(0, SeekOrigin.End);
           logFile.Write(bs, 0, bs.Length);
         }
}

编码的字节顺序标记(引自百度百科)

编码

表示 (十六进制)

表示 (十进制)

UTF-8

EF BB BF

239 187 191

UTF-16(大端序)

FE FF

254 255

UTF-16(小端序)

FF FE

255 254

UTF-32(大端序)

00 00 FE FF

0 0 254 255

UTF-32(小端序)

FF FE 00 00

255 254 0 0

UTF-7

2B 2F 76和以下的一个字节:[ 38 | 39 | 2B | 2F ]

43 47 118和以下的一个字节:[ 56 | 57 | 43 | 47 ]

en:UTF-1

F7 64 4C

247 100 76

en:UTF-EBCDIC

DD 73 66 73

221 115 102 115

en:Standard Compression Scheme for Unicode

0E FE FF

14 254 255

en:BOCU-1

FB EE 28及可能跟随着FF

251 238 40及可能跟随着255

GB-18030

84 31 95 33

132 49 149 51

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值