判断字符串是否UTF8编码

最新推荐文章于 2024-06-08 11:58:58 发布

twtzw

最新推荐文章于 2024-06-08 11:58:58 发布

阅读量527

点赞数

分类专栏： C/C++ 文章标签：网络 c

本文链接：https://blog.csdn.net/twtzw/article/details/3364082

版权

C/C++ 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

UTF8是以8bits即1Bytes为编码的最基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。

　　编码原理

　　先看这个模板：

　　UCS-4 range (hex.) UTF-8 octet sequence (binary)

　　0000 0000-0000 007F 0xxxxxxx

　　0000 0080-0000 07FF 110xxxxx 10xxxxxx

　　0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

　　0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

　　0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

　　0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

　　编码步骤：

　　1) 首先确定需要多少个8bits(octets)

　　2) 按照上述模板填充每个octets的高位bits

　　3) 把字符的bits填充至x中，字符顺序：低位→高位，UTF8顺序：最后一个octet的最末位x→第一个octet最高位x

根据UTF8编码,最多可由6个字节组成,所以UTF8是1-6字节编码组成

C++代码如下:

 
 int IsTextUTF8(char* str,ULONGLONG length) 
{ 
    int i; 
    DWORD nBytes=0;//UFT8可用1-6个字节编码,ASCII用一个字节 
    UCHAR chr; 
    BOOL bAllAscii=TRUE;  //如果全部都是ASCII,  说明不是UTF-8 
    for(i=0;i<length;i++)
    { 
        chr=   *(str+i); 
        if(   (chr&0x80)   !=   0   )   // 判断是否ASCII编码,如果不是,说明有可能是UTF-8,ASCII用7位编码,但用一个字节存,最高位标记为0,o0xxxxxxx 
            bAllAscii=   FALSE; 
        if(nBytes==0)     //如果不是ASCII码,应该是多字节符,计算字节数 
        { 
            if(chr>=0x80)  
            {
                if(chr>=0xFC&&chr<=0xFD)
                    nBytes=6;
                else if(chr>=0xF8)
                    nBytes=5;
                else if(chr>=0xF0)
                    nBytes=4;
                else if(chr>=0xE0)
                    nBytes=3;
                else if(chr>=0xC0)
                    nBytes=2;
                else
                {
                    return FALSE;
                }
                nBytes--;
            }
        } 
        else  //多字节符的非首字节,应为 10xxxxxx  
        { 
            if(   (chr&0xC0)   !=   0x80   )   
            { 
                
                return   FALSE; 
            } 
            nBytes--;                                                       
        } 
    } 
    if(   nBytes   >   0   ) //违返规则 
    {      
        return   FALSE; 
    } 
    if(   bAllAscii   ) //如果全部都是ASCII,  说明不是UTF-8 
    {          
        return   FALSE; 
    } 
    return   TRUE; 
} 
 

twtzw

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
判断字符串是否UTF8编码

UTF8是以8bits即1Bytes为编码的最基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。　　编码原理　　先看这个模板：　　UCS-4 range (hex.) UTF-8 octet sequence (binary)　　0000 0000-0000 007F 0xxx
复制链接

扫一扫