一个文本文件，如何知道它是GBK编码、还是UTF-8编码？BOM是什么东西？

最新推荐文章于 2022-11-21 21:01:45 发布

阿发你好

最新推荐文章于 2022-11-21 21:01:45 发布

阅读量6.9k

点赞数 2

分类专栏： Java面试题

本文链接：https://blog.csdn.net/iamshaofa/article/details/99710047

版权

Java面试题专栏收录该内容

34 篇文章 1 订阅

订阅专栏

( Java 面试题 | Java学习指南 )

我们平时看到的文本文件，虽然都是文本，但有的是GBK编码，有的UTF-8编码。那么，对于一个阅读器，它在读取一个文本文件时如何知道它是GBK还是UTF-8呢？

奥秘在于文件头部的几个字节。

规定如下：当以UTF16或UTF-8编码存储时，头部需要添加几个字节作为标识。称为 BOM

UTF8：头部3个字节 EF BB BF
UTF16BE (Big-Endian) : FE FF
UTF16LE (Little-Endian) : FF FE

由于UTF-8是我们常见的类型，所以只要关闭UTF-8的BOM即可。

当我们自己读取一个文本文件时，便要注意这种事情。要检测头部是否有 EF BB BF ,这三个字节是编码标识，不是有效内容。

final byte[] bom= { (byte)0xEF, (byte)0xBB, (byte)0xBF };
if ( buf[0] == bom[0] && buf[1] == bom[1] && buf[2] == bom[2] )
{
    // It's UTF8 encoded ...
}

反之，如果没有检测到这几种BOM，但是ANSI（本地字符编码）。对于Windows中文版来说，本地编码就是GBK编码。

阿发你好

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
一个文本文件，如何知道它是GBK编码、还是UTF-8编码？BOM是什么东西？

( Java面试题 | Java学习指南 )我们平时看到的文本文件，虽然都是文本，但有的是GBK编码，有的UTF-8编码。那么，对于一个阅读器，它在读取一个文本文件时如何知道它是GBK还是UTF-8呢？奥秘在于文件头部的几个字节。规定如下：当以UTF16或UTF-8编码存储时，头部需要添加几个字节作为标识。称为BOMUTF8：头部3个字节EF BB BFUTF16...
复制链接

扫一扫