UTF-8编码

最新推荐文章于 2023-12-07 18:36:38 发布

小燕子的空间

最新推荐文章于 2023-12-07 18:36:38 发布

阅读量436

点赞数

分类专栏：编码

本文链接：https://blog.csdn.net/dzkdxyx/article/details/80293463

版权

编码专栏收录该内容

2 篇文章 0 订阅

订阅专栏

标准ASCII码使用7位二进制来表示128个字符的编码,这128个符号,只占用了一个字节的后面7位,最前面一位统一规定为0.当然,英语用这128个符号编码就足够了,但是用来表示其他语言,这128个字符是不够的,所以扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号
但是光中国汉字就多达10万左右,一个字节只能表示256个符号肯定是不够,就必须使用多个字节来表达一个符号…世界上存在着多种编码方式,同一个二进制数字可以被编码成不同的符号.因此要想打开一个文本文件,就必须知道他的编码方式.否则用错误的编码方式解读,就会出现乱码…
Unicode将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码,它规定了符号的二进制代码,但没有规定这个二进制代码应该如何存储,UTF(Unicode Transformation Format)Unicode字符集转换格式,即怎样将Unicode定义的数字转换到程序数据的编码方案.包括UTF-8,UTF-16,UTF-32

UTF-8的特点是对不同范围的字符使用不同长度的编码。UTF-8编码的最大长度是6个字节;
UTF-16编码以16位无符号整数为单位;
UTF-32编码以32位无符号整数为单位

UTF-8编码实现

对于单字节的符号,字节的每一位设为0,后面7位为这个符号的Unicode码,因此对于英语字母,UTF8编码和ASCII码是相同的;
对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10.余下没有提及的二进制位,全部为这个符号的Unicode码

Unicode编码(十六进制)	UTF-8字节流(二进制)
0x00~0x7F (单字节,7 bit)	0 x x x x x x x
0x0080~0x07FF (双字节,11 bit)	1 1 0 x x x x x, 1 0 x x x x x x
0x0800~0xFFFF (三字节,16 bit)	1 1 1 0 x x x x, 1 0 x x x x x x, 1 0 x x x x x x
0x010000~0x10FFFF (四字节,21 bit)	1 1 1 1 0 x x x, 1 0 x x x x x x, 1 0 x x x x x x, 1 0 x x x x x x

注:根据理解,4个字节Unitcode编码的范围是0x010000~0x1FFFFF,但文档显示是ox010000~0x10FFFF,0x10FFFF是Unicode的最大值,还是其他原因,待确认???
由上表可以看出:对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同.

中文Unicode码范围 0x4E000x~9FBF

编码实现过程如下:
中文UTF-8编码

小燕子的空间

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
UTF-8编码

标准ASCII码使用7位二进制来表示128个字符的编码,这128个符号,只占用了一个字节的后面7位,最前面一位统一规定为0.当然,英语用这128个符号编码就足够了,但是用来表示其他语言,这128个字符是不够的,所以扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号但是光中国汉字就多达10万左右,一个字节只能表示256个符号肯定是不够,...
复制链接

扫一扫

专栏目录