记录下关于在Java代码中读取txt文档（带BOM的UTF-8编码格式），如何去除隐藏的字符串

最新推荐文章于 2022-04-30 21:48:43 发布

不吃仙人掌

最新推荐文章于 2022-04-30 21:48:43 发布

阅读量682

点赞数

分类专栏：个人错误修改

本文链接：https://blog.csdn.net/qq_38339561/article/details/105364741

版权

个人错误修改专栏收录该内容

30 篇文章 1 订阅

订阅专栏

为什么编码格式为带BOM的UTF-8在读取的时候会多出几个字符还不显示，这个原因看我上一篇文章，接下来说下解决方式
首先需要去判断下txt的编码格式
这里的unicode指的就是带BOM的UTF-8格式，这块应该是叫做unicode，如果不对麻烦指出来

// 判断编码格式
            final InputStream inputStream = new FileInputStream( localFileString );
            String code = "";
            final byte[] head = new byte[ 3 ];
            inputStream.read( head );
            if ( head[ 0 ] == -17 && head[ 1 ] == -69 && head[ 2 ] == -65 )
            {
               code = "Unicode";
            }
            else if ( head[ 0 ] == -2 && head[ 1 ] == -1 )
            {
               code = "UTF-8";
            }

我们在判断出编码格式后，就能在编码格式为带BOM的utf-8条件中处理一些逻辑，因为他只有第一行才会多出三个字符，所以我们只需要在第一行去掉三个字符就可以，其他行读出的都正常。如下，

while ( ( data = br.readLine() ) != null )
            {
               count++;

               if ( count == 1 && code.equals( "Unicode" ) )
               {
                  byte[] bytes = data.getBytes();
                  data = new String( bytes, 3, bytes.length - 3 );
               }
             }

不吃仙人掌

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
记录下关于在Java代码中读取txt文档（带BOM的UTF-8编码格式），如何去除隐藏的字符串

为什么编码格式为带BOM的UTF-8在读取的时候会多出几个字符还不现实，这个原因看我上一篇文章，接下来说下解决方式首先需要去判断下txt的编码格式这里的unicode指的就是带BOM的UTF-8格式，这块应该是叫做unicode，如果不对麻烦指出来// 判断编码格式 final InputStream inputStream = new FileInputStream...
复制链接

扫一扫