Unicode

Unicode(Unicode Character Set,UCS)字符集是字符(character)到代码点(code point)的抽象关系映射。他在任何一个平台上都是同一个实体。每一个使用到Unicode字符的系统都需要知道用的是什么编码方式,才能按照这种方式正确显示或处理。

编码(encode)是指将字符的代码点按照特定形式存储到内存中的方式,由它建立其抽象字符映射和计算机物理实现之间的桥梁。

解码(decode)把特定位组按照既定的编码方式转换成字符。

UTF-8编码(UCS TransformationFormat 8-bit)。在编写Perl程序时,如果希望perl解释器把源代码中的字符当作UTF-8编码的字符来解析的话,同样需要设定编辑软件,让其按照UTF-8编码的方式保存程序文件。

Unicode中字素的表示:

(1)一种方式是使用表示读音或其他衍生注解意义的记号(mark)字符和一个普通的非记号(nonmark)字符组合而成。

(2)单个字符版本可以称作组合(composed)字符。它是用一个代码点表示两个或多个字符。即把非记号字符和记号字符合并成单个字符,最终只用一个代码点来表示。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值