unicode编码与utf8编码

这几天在弄编码问题,有些心得就写下来

1、utf8编码详细看这个:http://baike.baidu.com/view/742823.htm

 

2、unicode编码的具体编码可以看看这个:http://www.knowsky.com/resource/gb2312tbl.htm

 

 

从上面可以得出下面明显的结论:

1、utf编码第一字节以及所表示的unicode范围:

 

字节总数

1

2

3

4

第一字节范围

 

C0-DF

E0-EF

F0-F7

表示的unicode范围

0-7F

80-7FF

800-FFFF

10000-1FFFFF

上面一行10进制表示

0-127

128-2047

2048-65535

65536-2097151

 

2、随后的几个字节范围都是:0x80~0xBF

 

3、unicode开始于:0xA1A0(41376),结束于:0xFEFF(65279);其中中文编码从:0xB0A0(45216)开始,结束于:0xF7F0(63472)

 

小结:

1、unicode的转换成utf8后都在3字节范围内

2、因此utf8编码的unicode第一个字节都在:0xE0~0xEF之间,后续字节在0x80~0xBF之间

3、3个字节后面可能跟着0~127范围内的ascii编码

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值