如何检测或判断一个文件或字节流（无BOM）是什么编码类型

最新推荐文章于 2022-12-15 11:14:51 发布

路过秋天-博客园

最新推荐文章于 2022-12-15 11:14:51 发布

阅读量10w+

点赞数 2

分类专栏：记录点滴文章标签：文件编码无BOM文件编码检测

本文链接：https://blog.csdn.net/cyq1162/article/details/80695110

版权

本文探讨了如何检测无BOM的文件或字节流编码类型，介绍了有BOM编码的简单检测方法，并详细讲解了无BOM编码的识别挑战，分享了从GitHub上获取的原始代码到改进后的C#实现过程，特别指出在纯中文情况下UTF16编码类型的局限性。

摘要由CSDN通过智能技术生成

前言：

昨天，在文章：终于等到你：CYQ.Data V5系列（ORM数据层，支持.NET Core）最新版本开源了中，

不小心看到一条留言：

然后就去该地址看了一下，这一看，顺带折腾了一天。

今天，就和大伙分享下折腾的感觉。

在该开源地址中，代码有C++和C#两个版本，编码的整体风格倾向与于C++。

主要的时间，花了在对于检测无BOM的部分，顺带重温了各种编码的基础。

建议在看此文之前，先了解下编码、和BOM的概念。

有BOM的编码检测

对于一个文件，或者字节流，就是一堆二进制：

如果传输的过程，有指定BOM，就是前面两三个字节是固定的255,254之类的，那么解码起来就很简单了。

像之前IOHelper内部读文件的代码是这么写的：

 /// <summary>
        /// 先自动识别UTF8，否则归到Default编码读取
        /// </summary>
        /// <returns></returns>
        public static string ReadAllText(string fileName)
        {
            return ReadAllText(fileName, DefaultEncoding);
        }
        public static string ReadAllText(string fileName, Encoding encoding)
        {
            try
            {
                if (!File.Exists(fileName))
                {
                    return string.Empty;
                }
                Byte[] buff = null;
                lock (GetLockObj(fileName.Length))
                {
                    if (!File.Exists(fileName))//多线程情况处理
                    {
                        return string.Empty;
                    }
                    buff = File.ReadAllBytes(fileName);
                }
                if (buff.Length == 0) { return ""; }
                if (buff[0] == 239 && buff[1] == 187 && buff[2] == 191)
                {
                    return Encoding.UTF8.GetString(buff, 3, buff.Length - 3);
                }
                else if (buff[0] == 255 && buff[1] == 254)
                {
                    return Encoding.Unicode.GetString(buff, 2, buff.Length - 2);
                }
                else if (buff[0] == 254 && buff[1] == 255)
                {
                    if (buff.Length > 3 && buff[2] == 0 && buff[3] == 0)
                    {
                        return Encoding.UTF32.GetString(buff, 4, buff.Length - 4);
                    }
                    return Encoding.BigEndianUnicode.GetString(buff, 2, buff.Length - 2);
                }
                return encoding.GetString(buff);
            }
            catch (Exception err)
            {
                Log.WriteLogToTxt(err);
            }
            return string.Empty;
        }

代码说白了，就是检测BOM头，然后识别编码，用对应的编码解码。

测试的结果：

中文都能正确显示。

windows下文本的另存为只有：ANSI、UTF8､Unicode(UTF16LE)、BigEndianUnicode（UTF16BE）。

这四种有BOM的都是轻松检测了。

那如果文件或字节没有BOM头呢？如果用默认的编码，由有一定概率会乱码。

无BOM的编码检测

如果一堆字节流，没有指定BOM，就要分析出编码类型，还是挺有难度的。

这需要对各种编码的规则有一定的熟悉度。

先看看网友给出的Github上的原始源码：

public Encoding DetectEncoding(byte[] buffer, int size)
        {
            // First check if we have a BOM and return that if so
            Encoding encoding = CheckBom(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // Now check for valid UTF8
            encoding = CheckUtf8(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // Now try UTF16 
            encoding = CheckUtf16NewlineChars(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            encoding = CheckUtf16Ascii(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // ANSI or None (binary) then
            if (!DoesContainNulls(buffer, size))
            {
                return Encoding.Ansi;
            }

            // Found a null, return based on the preference in null_suggests_binary_
            return _nullSuggestsBinary ? Encoding.None : Encoding.Ansi;
        }

代码流程（和内涵）翻译下来是这样的：

1､检测BOM头，这个很Easy。

2､检测UTF8编码（这个还是很有创意的），如果编码的规则完全符合UTF8,则认为是UTF8。

3､检测字节中是否有换行符（根据换行符中的0的位置，区分是Utf16的BE大尾还是LE小尾）。

这个概率要看字节抽样的长度，带不带换行符。

4､检测字节中，单偶数出现的0的概率，设定了一个期望值来预判（对于中文而言，基本没用），大概是老外写的，只根据英文情况分析的概率。

5､检测字节中，有没有出现0，如果没有，返回系统默认编码（不同系统环境编码是不同的）。

首先，不得不说，原作者还是有一定想法的。

虽然代码中除了UTF8按规则写的分析外，其它的都无法代入中文环境里通过。

但至少思路上，就能得到不少启发。

于是，坑了我大半天，进行重写，改造，代入中文环境测试。

无BOM代码检测的改造过程：

改造后的代码流程是这样的：

public Encoding DetectWithoutBom(byte[] buffer, int size)
        {
            // Now check for valid UTF8
            Encoding encoding = CheckUtf8(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // ANSI or

最低0.47元/天解锁文章

路过秋天-博客园

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
如何检测或判断一个文件或字节流（无BOM）是什么编码类型

前言：昨天，在文章：终于等到你：CYQ.Data V5系列（ORM数据层，支持.NET Core）最新版本开源了&nbsp;中，不小心看到一条留言：然后就去该地址看了一下，这一看，顺带折腾了一天。今天，就和大伙分享下折腾的感觉。在该开源地址中，代码有C++和C#两个版本，编码的整体风格倾向与于C++。主要的时间，花了在对于检测无BOM的部分，顺带重温了各种编码的基础。建议在看此文...
复制链接

扫一扫

专栏目录