计算机编码世界(二)

一. UTF-8详解

UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度。
UTF-8的编码规则很简单,只有二条:
1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。
2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。
下表总结了编码规则,字母x表示可用编码的位。(一个字节为2位的十六进制数)

Unicode符号范围 | UTF-8编码方式
(十六进制) | (二进制)
--------------------+---------------------------------------------
0000-007F | 0xxxxxxx
(0000 0080)-(0000 07FF) | 110xxxxx 10xxxxxx
(0000 0800)-(0000 FFFF) | 1110xxxx 10xxxxxx 10xxxxxx
(0001 0000)-(0010 FFFF) | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

跟据上表,解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符; 如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。
下面,还是以汉字"严"为例,演示如何实现UTF-8编码。

已知"严"的unicode是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800-0000 FFFF), 因此"严"的UTF-8编码需要三个字节,即格式是"1110xxxx 10xxxxxx 10xxxxxx"。 然后,从"严"的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。 这样就得到了,"严"的UTF-8编码是"11100100 10111000 10100101",转换成十六进制就是E4B8A5。
由此可见,UTF-8可以表示21位的长度,至少可以表示200万左右的字符,足以.

二. 实例

下面,举一个实例。 打开Editplus,新建一个文本文件,内容就是一个"严"字,依次采用ANSI,Unicode,Unicode big endian 和 UTF-8编码方式。 然后,用文本编辑的"十六进制功能",观察该文件的内部编码方式。(BOM只出现一次)
1)ANSI:文件的编码就是两个字节"D1 CF",这正是"严"的GB2312编码,这也暗示GB2312是采用大头方式存储的。
2)Unicode(默认小头):FF FE 25 4E(前俩字节为BOM)
3)Unicode big endian:FE FF 4E 25(前俩字节为BOM)
4)UTF-8 +BOM:EF BB BF E4 B8 A5(前三个字节为BOM) 5)UTF-8 :E4 B8 A5

三. 补充

1.文本以什么字节保存称为编码,以什么方式打开称为解码.
2.当编码和解码使用相同的方式时,才不会出现乱码
3.当我们打开文本时,计算机会识别文本的编码方式,但不全是这样.
4.我们知道UTF-8对于单字节的处理和ASCII一样,所以当我们用UTF-8编码ASCII仅有 的字符集合,当我们打开文本时默认是ANSI.

5.ANSI中文默认为GB2312可以表示日语,但无法表示韩语,输入韩语乱码且无法保存

原创摘自:http://beadlechen.github.io/content/blog.html#category=software#article=encode2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值