java write 去bom_Java处理UTF-8带BOM的文本的读写

最新推荐文章于 2021-02-26 06:28:35 发布

weixin_39649405

最新推荐文章于 2021-02-26 06:28:35 发布

阅读量233

点赞数

文章标签： java write 去bom

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39649405/article/details/114312007

版权

今天在做用Java輸出CSV文件，用MS Office2007打開時，總是亂碼，文件是用UTF-8輸出的，用其它編輯器打沒有亂碼問題，只有MS office會有問題，經過一天的研究，找到了如下解決方法，在輸出信息頭上加BOM即可。以下是轉載的文章，做為備忘錄。

什么是BOM

BOM(byte-order mark)，即字节顺序标记，它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记，用来识别Unicode文件的编码类型。对于UTF-8来说，BOM并不是必须的，因为BOM用来标记多字节编码文件的编码类型和字节顺序(big-endian或little- endian)。

BOMs 文件头:

00 00 FE FF = UTF-32, big-endian

FF FE 00 00 = UTF-32, little-endian

EF BB BF = UTF-8,

FE FF = UTF-16, big-endian

FF FE = UTF-16, little-endian

‍下面举个例子，针对UTF-8的文件BOM做个处理：

String　xmla　=　StringFileToolkit.file2String(new　File(“D：\\projects\\mailpost\\src\\a.xml”)，“UTF-8”);

byte［］　b　=　xmla.getBytes(“UTF-8”);

String　xml　=　new　String(b，3，b.length-3，“UTF-8”);

------------------------

byte[] bom ={(byte) 0xEF,(byte) 0xBB,(byte) 0xBF};

response.getOutputStream().write(bom);

..............

思路是：先按照UTF-8编码读取文件后，跳过前三个字符，重新构建一个新的字符串，然后用Dom4j解析处理，这样就不会报错了。其他编码的方式处理思路类似，其实可以写一个通用的自动识别的BOM的工具，去掉BOM信息，返回字符串。

不过这个处理过程已经有牛人解决过了：http://koti.mbnet.fi/akini/java/unicodereader/

weixin_39649405

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。