java bom 文件读取_Java读取流数据遇到BOM首字符时的处理

最新推荐文章于 2023-05-17 22:27:02 发布

大小冰冰

最新推荐文章于 2023-05-17 22:27:02 发布

阅读量346

点赞数

文章标签： java bom 文件读取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36184307/article/details/114141570

版权

项目中通过 InputStream 读取文本文件数据时经常会遇到读入的字符流中含有特殊首字符的情况。这个标识在 Java 读取文件的时候，不会被去掉，而且 String.trim() 也无法删除，导致读入的数据比预期的长度大1，此时的特殊首字符有可能就是系统保存文本文件时添加的 BOM 标识。

BOM 字符是什么？

BOM 即 Byte Order Mark，是 Unicode 规范中推荐的标记字节顺序的方法。比如说对于 UTF-16，如果接收者收到的 BOM 是 \uFEFF，表明这个字节流是 Big-Endian 的；如果收到 \uFFFE，就表明这个字节流是Little-Endian的。在 UTF-8 中不需要 BOM 来表明字节顺序，但可以用其来表明 UTF-8 的编码规则。BOM的 UTF-8 编码是 EF BB BF(用 UltraEdit 打开文本并切换到16进制可以看到)。所以如果接收者收到以 EF BB BF 开头的字节流，就知道这是 UTF-8 编码了。

在 Windows 下用文本编辑器创建的文本文件，如果选择以 UTF-8 等 Unicode 格式保存，会默认在文件头(第一个字符)都会加入一个不可见的 BOM 标识。

BOM 字符的影响

在读入数据时，由于 BOM 字符不会被忽略掉，而且 String.trim() 也无法删除，会导致我们判断首字符时出现不必要的麻烦，例如当我们需要判断读入字符串以某个字符开头时 BOM 字符就可能造成判断失败，需要针对 Unicode 格式保存的文件做特殊处理。

如何简单的统一处理 BOM 字符

可以使用 Apache Commons IO 中的 BOMInputStream 去封装下原始的 InputStream 即可获得一个过滤了 BOM 字符的输入流，然后再继续后续的操作即可。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java bom 文件读取_Java读取流数据遇到BOM首字符时的处理

项目中通过 InputStream 读取文本文件数据时经常会遇到读入的字符流中含有特殊首字符的情况。这个标识在 Java 读取文件的时候，不会被去掉，而且 String.trim() 也无法删除，导致读入的数据比预期的长度大1，此时的特殊首字符有可能就是系统保存文本文件时添加的 BOM 标识。BOM 字符是什么？BOM 即 Byte Order Mark，是 Unicode 规范中推荐的标记字节顺...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。