无BOM utf8编码判断

最新推荐文章于 2024-01-02 17:04:02 发布

TonyLian

最新推荐文章于 2024-01-02 17:04:02 发布

阅读量1.1k

点赞数

分类专栏：【编程技术】文章标签： VB VB.NET .net

本文链接：https://blog.csdn.net/TonyLian/article/details/83408312

版权

【编程技术】专栏收录该内容

5 篇文章 0 订阅

订阅专栏

BOM（Byte Order Mark）是一个字符，它表明UNICODE文本的UTF-16,UTF-32的编码字节顺序（高字节低字节顺序）和编码方式（UTF-8,UTF-16,UTF-32，其中UTF-8编码是字节顺序无关的）。

如下所示：
Encoding Representation
UTF-8 EF BB BF
UTF-16 Big Endian FE FF
UTF-16 Little Endian FF FE
UTF-32 Big Endian 00 00 FE FF
UTF-32 Little Endian FF FE 00 00

有些utf8编码没有这个BOM,该怎么区分了,是utf8还是ansi(根本就没有BOM这个东西),下面先了解下utf8:

UTF-8是UNICODE的一种变长字符编码，由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节，而如果UNICODE字符由4个字节表示，则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了，但很少会遇到那样的UNICODE字符。

UFT-8转换表表示如下：

UNICODE UTF-8
00000000 - 0000007F 0xxxxxxx
00000080 - 000007FF 110xxxxx 10xxxxxx
00000800 - 0000FFFF 1110xxxx 10xxxxxx 10xxxxxx
00010000 - 001FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
00200000 - 03FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
04000000 - 7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNCODE字符转化成UTF-8将需要至少2个字节。

以上是网上找的utf8编码介绍,对于这个转换表可以看作一个模板,对于以标示的二进制位值是固定的,XX位是将字符以unicode编码,然后根据值的大小分段,决定使用哪个模板,高位在前的次序填入XX位.
ascii占用一个字节,一般我们见到的其它字符都是占用3个字节,套用00000800 - 0000FFFF 1110xxxx 10xxxxxx 10xxxxxx这个模板,这样第一个字节就是>=11100000(&HE0) and < 11110000(&HF0),后面两个字节>=10xxxxxx(&H80) and < 11000000(&HC0),我们就可以根据这点来写代码了,符合这个规则的都被判为utf8,否则为ansi.

VB.net代码如下：

    Function OnUtf8(ByVal byts() As Byte) As Boolean
        Try
            Dim i As Int32, AscN As Int32
            Do While i <= UBound(byts)
                If byts(i) < 128 Then
                    i += 1       'ascii字符
                    AscN += 1
                ElseIf (byts(i) And &HE0) = &HC0 And (byts(i + 1) And &HC0) = &H80 Then
                    i += 2      '2个字节的utf8
                ElseIf (byts(i) And &HF0) = &HE0 And (byts(i + 1) And &HC0) = &H80 And (byts(i + 2) And &HC0) = &H80 Then
                    i += 3       '3个字节的utf8
                Else
                    Return False
                End If
            Loop

'这个判断可以不要,当全部是ascii字符时,被划分到哪种编码
            If AscN = byts.Length Then
                Return False
            Else
                Return True
            End If
        Catch ex As Exception
            'MsgBox(ex.Message)
        End Try
    End Function

这种判断法,一般的字符都可以正确判断,可踫上特殊的就会变成乱码,像比较普通的"联通"两个字,还有"戟半丁","戟广发"等等,像这种组合正好落在这个判断内就会把本来的ansi编码识别为utf8,从而变成乱码,系统自带的记事本用的判断法应该和这个差不多,对于以上的特殊字眼用ansi编码保存后,再打开同样是乱码,为什么要让无BOM的utf8编码存在了,虽然这种情况很少见.

TonyLian

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
无BOM utf8编码判断

BOM（Byte Order Mark）是一个字符，它表明UNICODE文本的UTF-16,UTF-32的编码字节顺序（高字节低字节顺序）和编码方式（UTF-8,UTF-16,UTF-32，其中UTF-8编码是字节顺序无关的）。如下所示：Encoding Representation UTF-8 EF BB BF UTF-16 Big Endian FE FF UTF-16 Little E...
复制链接

扫一扫

专栏目录