今天在做用Java輸出CSV文件,用MS Office2007打開時,總是亂碼,文件是用UTF-8輸出的,用其它編輯器打沒有亂碼問題,只有MS office會有問題,經過一天的研究,找到了如下解決方法,在輸出信息頭上加BOM即可。以下是轉載的文章,做為備忘錄。
什么是BOM
BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并不是必须的,因为BOM用来标记多字节编码文件的编码类型和字节顺序(big-endian或little- endian)。
BOMs 文件头:
00 00 FE FF = UTF-32, big-endian
FF FE 00 00 = UTF-32, little-endian
EF BB BF = UTF-8,
FE FF = UTF-16, big-endian
FF FE = UTF-16, little-endian
下面举个例子,针对UTF-8的文件BOM做个处理:
String xmla = StringFileToolkit.file2String(new File(“D:\\projects\\mailpost\\src\\a.xml”),“UTF-8”);
byte[] b = xmla.getBytes(“UTF-8”);
String xml = new String(b,3,b.length-3,“UTF-8”);
------------------------
byte[] bom ={(byte) 0xEF,(byte) 0xBB,(byte) 0xBF};
response.getOutputStream().write(bom);
..............
思路是:先按照UTF-8编码读取文件后,跳过前三个字符,重新构建一个新的字符串,然后用Dom4j解析处理,这样就不会报错了。其他编码的方式处理思路类似,其实可以写一个通用的自动识别的BOM的工具,去掉BOM信息,返回字符串。
不过这个处理过程已经有牛人解决过了:http://koti.mbnet.fi/akini/java/unicodereader/