Unicode(Unicode Character Set,UCS)字符集是字符(character)到代码点(code point)的抽象关系映射。他在任何一个平台上都是同一个实体。每一个使用到Unicode字符的系统都需要知道用的是什么编码方式,才能按照这种方式正确显示或处理。
编码(encode)是指将字符的代码点按照特定形式存储到内存中的方式,由它建立其抽象字符映射和计算机物理实现之间的桥梁。
解码(decode)把特定位组按照既定的编码方式转换成字符。
UTF-8编码(UCS TransformationFormat 8-bit)。在编写Perl程序时,如果希望perl解释器把源代码中的字符当作UTF-8编码的字符来解析的话,同样需要设定编辑软件,让其按照UTF-8编码的方式保存程序文件。
Unicode中字素的表示:
(1)一种方式是使用表示读音或其他衍生注解意义的记号(mark)字符和一个普通的非记号(nonmark)字符组合而成。
(2)单个字符版本可以称作组合(composed)字符。它是用一个代码点表示两个或多个字符。即把非记号字符和记号字符合并成单个字符,最终只用一个代码点来表示。