正则表达式系列 (三)

前文链接:

正则表达式系列 一
正则表达式系列 二

本文介绍了与文本处理密切相关的Unicode概念,以及简单探索正则的匹配原理。

Unicode

什么是Unicode

在没有 Unicode 之前,全世界各个地区的文字编码各不相同,中国大陆用GB2312,美国用ASCII。这些编码标准的作用都是,给一个字符分配一个编号,形成码值与字符的映射。

但随着互联网发展,跨地区交流时,同样的码值对应着不同地区的字符,假设编号1对应中文的“我”,而编号1对应英文的“a”,这样不就无法解码了

所以Unicode标准出现,收录了全世界几乎所有的字符,统一分配编号

组成结构

Unicode 分为 UCSUTF 两部分

UCS就是个超大的容器,编号从0到1114111(一百多万个,到目前只分配了30万左右),收录全世界的字符。这个大容器又被分为17个小容器,称为平面,每一个平面大小是65536。平面编号从0到16,其中0号平面又被称为BMP(和.bmp文件没有任何关系)。日常使用的绝

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值