如何检测或判断一个文件或字节流(无BOM)是什么编码类型

本文探讨了如何检测无BOM的文件或字节流编码类型,介绍了有BOM编码的简单检测方法,并详细讲解了无BOM编码的识别挑战,分享了从GitHub上获取的原始代码到改进后的C#实现过程,特别指出在纯中文情况下UTF16编码类型的局限性。
摘要由CSDN通过智能技术生成

前言:

昨天,在文章:终于等到你:CYQ.Data V5系列 (ORM数据层,支持.NET Core)最新版本开源了 中,

不小心看到一条留言:

然后就去该地址看了一下,这一看,顺带折腾了一天。

今天,就和大伙分享下折腾的感觉。

在该开源地址中,代码有C++和C#两个版本,编码的整体风格倾向与于C++。

主要的时间,花了在对于检测无BOM的部分,顺带重温了各种编码的基础。

建议在看此文之前,先了解下编码、和BOM的概念。

有BOM的编码检测

对于一个文件,或者字节流,就是一堆二进制:

如果传输的过程,有指定BOM,就是前面两三个字节是固定的255,254之类的,那么解码起来就很简单了。

像之前IOHelper内部读文件的代码是这么写的:

 /// <summary>
        /// 先自动识别UTF8,否则归到Default编码读取
        /// </summary>
        /// <returns></returns>
        public static string ReadAllText(string fileName)
        {
            return ReadAllText(fileName, DefaultEncoding);
        }
        public static string ReadAllText(string fileName, Encoding encoding)
        {
            try
            {
                if (!File.Exists(fileName))
                {
                    return string.Empty;
                }
                Byte[] buff = null;
                lock (GetLockObj(fileName.Length))
                {
                    if (!File.Exists(fileName))//多线程情况处理
                    {
                        return string.Empty;
                    }
                    buff = File.ReadAllBytes(fileName);
                }
                if (buff.Length == 0) { return ""; }
                if (buff[0] == 239 && buff[1] == 187 && buff[2] == 191)
                {
                    return Encoding.UTF8.GetString(buff, 3, buff.Length - 3);
                }
                else if (buff[0] == 255 && buff[1] == 254)
                {
                    return Encoding.Unicode.GetString(buff, 2, buff.Length - 2);
                }
                else if (buff[0] == 254 && buff[1] == 255)
                {
                    if (buff.Length > 3 && buff[2] == 0 && buff[3] == 0)
                    {
                        return Encoding.UTF32.GetString(buff, 4, buff.Length - 4);
                    }
                    return Encoding.BigEndianUnicode.GetString(buff, 2, buff.Length - 2);
                }
                return encoding.GetString(buff);
            }
            catch (Exception err)
            {
                Log.WriteLogToTxt(err);
            }
            return string.Empty;
        }

代码说白了,就是检测BOM头,然后识别编码,用对应的编码解码。

测试的结果:

中文都能正确显示。

windows下文本的另存为只有:ANSI、UTF8、Unicode(UTF16LE)、BigEndianUnicode(UTF16BE)。

这四种有BOM的都是轻松检测了。

 那如果文件或字节没有BOM头呢?如果用默认的编码,由有一定概率会乱码。

无BOM的编码检测

如果一堆字节流,没有指定BOM,就要分析出编码类型,还是挺有难度的。

这需要对各种编码的规则有一定的熟悉度。

先看看网友给出的Github上的 原始源码

public Encoding DetectEncoding(byte[] buffer, int size)
        {
            // First check if we have a BOM and return that if so
            Encoding encoding = CheckBom(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // Now check for valid UTF8
            encoding = CheckUtf8(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // Now try UTF16 
            encoding = CheckUtf16NewlineChars(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            encoding = CheckUtf16Ascii(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // ANSI or None (binary) then
            if (!DoesContainNulls(buffer, size))
            {
                return Encoding.Ansi;
            }

            // Found a null, return based on the preference in null_suggests_binary_
            return _nullSuggestsBinary ? Encoding.None : Encoding.Ansi;
        }

代码流程(和内涵)翻译下来是这样的:

1、检测BOM头,这个很Easy。

2、检测UTF8编码(这个还是很有创意的),如果编码的规则完全符合UTF8,则认为是UTF8。

3、检测字节中是否有换行符(根据换行符中的0的位置,区分是Utf16的BE大尾还是LE小尾)。

这个概率要看字节抽样的长度,带不带换行符。

4、检测字节中,单偶数出现的0的概率,设定了一个期望值来预判(对于中文而言,基本没用),大概是老外写的,只根据英文情况分析的概率。

5、检测字节中,有没有出现0,如果没有,返回系统默认编码(不同系统环境编码是不同的)。

首先,不得不说,原作者还是有一定想法的。

虽然代码中除了UTF8按规则写的分析外,其它的都无法代入中文环境里通过。

但至少思路上,就能得到不少启发。

于是,坑了我大半天,进行重写,改造,代入中文环境测试。

无BOM代码检测的改造过程:

改造后的代码流程是这样的:

public Encoding DetectWithoutBom(byte[] buffer, int size)
        {
            // Now check for valid UTF8
            Encoding encoding = CheckUtf8(buffer, size);
            if (encoding != Encoding.None)
            {
                return encoding;
            }

            // ANSI or 
  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值