2.UTF-8使用三个字节表示一个非ANSI字符

       问题的引出是因为在上一篇中使用的编码是 Encoding.UTF8.GetBytes(string),中文在编码之后居然是占三个字节,而不是两个字节,就好奇去找原因。

      这算是一个拓展文章。

      UNICODE是万能编码,包括了所有符号的编码,它了规定所有符号在计算机底层的二进制的表示顺序,是针对所有计算机使用者定义的一套统一的编码规范,这样计算机使用者就能避免编码转换问题。

      UNICODE定义了所有符号的二进制形式,也就是符号如何在计算机内部存储,而且每个符号都必须使用两个字节表示,也就是用16位二进制去表示一个符号。这样就导致了一个问题,英文编码的空间浪费,因为在ANSI中的符号都是一个字节表示,而是用UNICODE需要两倍的空间存储相应的ANSI编码下的符号。虽然现在硬盘内存都很廉价,但是在网络传输中,该问题就凸显出来了,本来1MB的带宽在ANSI下可以戴白哦1024*1024个字符,但是在UNICODE下却只能代表(1024*1024)/2个字符。

      为了解决符号在网络传输中的浪费问题,就出现了UTF-8编码,Unicode transfer fomat -8,后面的8代表是以8位二进制为单位传输符号。但这又导致一个问题,虽然UTF-8可以使用一个字节来表示ANSI下的符号,但是对于类似汉语的符号,得需要两个字节来表示,所以计算机不知道如何去截取一个符号,也就是一个符号对应的二进制的截取开始位置和结束位置。

      为了解决unicode下的ANSI符号的空间浪费和网络传输下如何截取字符的问题,UTF规定:如果要给符号只占一个字节,那么这个8位字节的第一位就为0.如果两个字节,那么规定第一个字节前两位是1、第三位是0,第二个字节的前两位为10;如果是三个字节,那么第一个字节的前三位是1、第四位是0,剩余两个字节的前两位都为10.

      按照这样的算法思考一个中文字符的UTF-8怎么表示:一个中文字符需要两个字节表示,两个字节一共是16位,那么UTF-8下,两个字节是不够的,因为两个字节下,第一个字节已经占了三位 110,第二个地字节也已占了两位 10。所以就使用三个字节去表示非ANSI字符:三个字节下,一共24位置,第一个字节头四位 1110,后两个字节都是前两位10,那么24-8=16,刚好两个字节去表示UNICODE下的任意一个非ANSI字符。

       这就是为什么UTF-8需要使用三个字节去表示一个非ANSI字符的原因。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kerven_HKW

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值