unicode编码

终于把unicode编码做了一个大致的了解了。  

在学习的过程中知道了很多概念和相关的发展历史,对以前比较模糊的概念也有了比较深入的了解。

 

一些概念:

  1. bom(byte order mark)用来区别是big endian(BE)还是little endian(LE)。
    区别的方法: 在UTF-16文件的头2个字节里做个标记: LE [0xFF, 0xFE], BE [0xFE, 0xFF]; 而在UTF-8中,标记[0xEF, 0xBB, 0xBF],可有可无的
  2. Unicode的理解
  3. UCS(universal character set)通用字符集
  4. UTF-16
  5. UTF-8
  6. BMP(Basic Multilingual Plane),在表达一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。在BPM里的所有字符,要用四位十六进制数,在BMP以外的需要使用五位或六位十六进制数。


 
看完总结出来的简单的思维导图。
每一个点上都有细节可以研究,例如utf-8,utf-16等都有各自的算法,各自的实现方式。

参考
http://tech.idv2.com/2008/02/21/unicode-intro/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值