编码详解

Unicode编码只是规定如何编码, 例如"汉"字的Unicode编码是6C49, 那么如何把"汉"字保存到文件中, 你可以直接把6C49的数值保存, 你也可以吧6C49这4个字符来保存, 也就是说需要一种保存格式(一种格式协议). UTF-8, UTF-7, UTF-16就是被广泛接受的保存格式.


1,Unicode到底是什么?

可以将Unicode编码理解为国际唯一标准编码,中间编码,最底层的编码,它强大到可以编码这世界上所有的语言的所有文字。可以将它形象的比喻为中间人。unicode普遍是用十六进制表示\u,也可以用十进制,二进制表示

说了一大堆,其实,就是二进制码,双字节表示的二进制码。

2,神马utf-8和gbk到底是什么?

---UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。神马gbk,utf-8都是区域性编码(美国人制定的编码,国际性编码),他们都是由Unicode编码封装而成(再次编码)。

---UTF8是为传送unicode而想出来的“再编码”方法罢了,url传输以及其它传输中用的编码都是utf8编码。gbk则是为了汉字而制定的编码(中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,一个应该淘汰的编码)。

---下面, 还是以汉字""为例, 演示如何实现unicode转换为UTF-8编码
已知""的unicode是4E25(1001110 00100101), 根据上表, 可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF), 因此""的UTF-8编码需要三个字节, 即格式是
"1110xxxx 10xxxxxx 10xxxxxx". 然后, 从""的最后一个二进制位开始, 依次从后向前填入格式中的x, 多出的位补0. 这样就得到了, ""的UTF-8编码是 "11100100 10111000
10100101", 转换成十六进制就是E4B8A5.

 

3,utf-8和Unicode关系?

中间人关系,Unicode是中间人(原始编码),utf-8和gbk是客户。例如,gbk转换为utf8,就需要先将gbk转换为Unicode,然后再编码为utf8编码。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值