linux一般utf8签名吗,utf-8和utf-8-sig的区别-CSDN博客

utf-8保存的csv格式文件要让Excel正常打开的话，需要在文件最前面加入BOM(Byte order mark)。如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

所以在write文件的内容数据之前，先write一下BOM。如下面代码

FileOutputStream fos = new FileOutputStream(new File(this.csvFileAbsolutePath));

byte [] bs = { (byte)0xEF, (byte)0xBB, (byte)0xBF}; //UTF-8编码

fos.write(bs);

fos.write(...);

fos.close();

这样添加了BOM的CSV文件用excel直接打开，是不会出现乱码的。

我当时遇到的问题是这样的。下载CSV文件，用excel打开，中文乱码，用atom，notepad++和记事本打开，显示正常。查资料发现是excel不能识别无BOM头的unicode文件问题，就是excel在打开CSV文件时默认用ASNI打开。所以需要添加BOM头。

BOM的含义

BOM即Byte Order Mark字节序标记。BOM是为UTF-16和UTF-32准备的，用户标记字节序(byte order)。拿UTF-16来举例，其是以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流"594E"，那么这是“奎”还是“乙”？

Unicode规范中推荐的标记字节顺序的方法是BOM：在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"(零宽度无间断空间)的字符，它的编码是FEFF。而FEFF在UCS中是不不能再的字符(即不可见)，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者接收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称为BOM。

UTF-8是以字节为编码单元，没有字节序的问题。

延伸一下：

UTF-8编码是以1个字节为单位进行处理的，不会受CPU大小端的影响；需要考虑下一位时就地址 + 1。

UTF-16、UTF-32是以2个字节和4个字节为单位进行处理的，即1次读取2个字节或4个字节，这样一来，在存储和网络传输时就要考虑1个单位内2个字节或4个字节之间顺序的问题。

UTF-8 BOM

UTF-8 BOM又叫UTF-8 签名，UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。当文本程序读取到以 EF BB BF开头的字节流时，就知道这是UTF-8编码了。Windows就是使用BOM来标记文本文件的编码方式的。

补充：

"ZERO WIDTH NO-BREAK SPACE"字符的UCS编码为FEFF(假设为大端)，对应的UTF-8编码为 EF BB BF

即以EF BB BF开头的字节流可表明这是段UTF-8编码的字节流。但如果文件本身就是UTF-8编码的，EF BB BF这三个字节就毫无用处了。　所以，可以说BOM的存在对于UTF-8本身没有任何作用。

UTF-8文件中包含BOM的坏处

1、对php的影响

php在设计时就没有考虑BOM的问题，也就是说他不会忽略UTF-8编码的文件开头的那三个EF BB BF字符，直接当做文本进行解析，导致解析错误。