前文链接:
本文介绍了与文本处理密切相关的Unicode概念,以及简单探索正则的匹配原理。
Unicode
什么是Unicode
在没有 Unicode 之前,全世界各个地区的文字编码各不相同,中国大陆用GB2312
,美国用ASCII。这些编码标准的作用都是,给一个字符分配一个编号,形成码值与字符的映射。
但随着互联网发展,跨地区交流时,同样的码值对应着不同地区的字符,假设编号1对应中文的“我”,而编号1对应英文的“a”,这样不就无法解码了
所以Unicode标准出现,收录了全世界几乎所有的字符,统一分配编号
组成结构
Unicode 分为 UCS
和 UTF
两部分
UCS
就是个超大的容器,编号从0到1114111(一百多万个,到目前只分配了30万左右),收录全世界的字符。这个大容器又被分为17个小容器,称为平面,每一个平面大小是65536。平面编号从0到16,其中0号平面又被称为BMP
(和.bmp
文件没有任何关系)。日常使用的绝