java write 去bom_Java处理UTF-8带BOM的文本的读写

今天在做用Java輸出CSV文件,用MS Office2007打開時,總是亂碼,文件是用UTF-8輸出的,用其它編輯器打沒有亂碼問題,只有MS office會有問題,經過一天的研究,找到了如下解決方法,在輸出信息頭上加BOM即可。以下是轉載的文章,做為備忘錄。

什么是BOM

BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并不是必须的,因为BOM用来标记多字节编码文件的编码类型和字节顺序(big-endian或little- endian)。

BOMs 文件头:

00 00 FE FF    = UTF-32, big-endian

FF FE 00 00    = UTF-32, little-endian

EF BB BF       = UTF-8,

FE FF          = UTF-16, big-endian

FF FE          = UTF-16, little-endian

‍下面举个例子,针对UTF-8的文件BOM做个处理:

String xmla = StringFileToolkit.file2String(new File(“D:\\projects\\mailpost\\src\\a.xml”),“UTF-8”);

byte[] b = xmla.getBytes(“UTF-8”);

String xml = new String(b,3,b.length-3,“UTF-8”);

------------------------

byte[] bom ={(byte) 0xEF,(byte) 0xBB,(byte) 0xBF};

response.getOutputStream().write(bom);

..............

思路是:先按照UTF-8编码读取文件后,跳过前三个字符,重新构建一个新的字符串,然后用Dom4j解析处理,这样就不会报错了。其他编码的方式处理思路类似,其实可以写一个通用的自动识别的BOM的工具,去掉BOM信息,返回字符串。

不过这个处理过程已经有牛人解决过了:http://koti.mbnet.fi/akini/java/unicodereader/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值