正则表达式与unicode

原创 2016年09月05日 19:02:56

本文专门谈谈我们主要讲述一下Unicode编码本身的特性,以便更好地运用正则表达式解决与Unicode相关的问题。

Unicode Code Point

Unicode字符多种多样,除去ascii中的字母、数字、标点和中文字符,还包括其它多种语言和多种符号,有些符号甚至很难打出来(比如表示商标注册的?),这时候该如何表示呢?再说远一点,如果我们想用一个字符组匹配所有中文字符,能不能像『[a-z]』那样呢?

所幸,每一个Unicode字符都对应自己的Unicode编码,也就是Unicode编码表中的一个代码点(Code Point),所以在正则表达式中的Unicode字符往往采用Unicode代码点来指定。

一般来说,指定代码点的形式有3种:『\uxxxx』、『\u{xxxx}』、『\x{xxxx}』(其中的xxxx为编码的值,\u之后必须有4位16进制数字)。.NET、Java、JavaScript和Python使用第一种方式,而PHP和Ruby使用第二种方式(Ruby 1.9以上版本才支持这种表示法),PHP使用第三种方式。

比如“发表”的“发”字对应的Unicode编码是53 d1,它在不同语言中的表示法如下:所以我们可以在.NET、Java、JavaScript的正则表达式中这样表示“发”字:“\u53d1”,Python稍有不同,必须使用u”\u53d1”(之前的u表示这是一个Unicode字符串); Ruby中,“发”则必须写作”\u{53d1}”。

既然可以这样指定Unicode字符,自然也可以在字符组中用范围表示法指定一个Unicode编码范围了。比如,我们查询Unicode编码表可知,中文的编码一般在4e00到9fff之间,所以可以用这样的字符组匹配中文字符(Unicode编码4e00-9fff归类为“CJK 统一表意符号”CJK Unified Ideographs[1],涵盖了绝大多数中文字符)。


根据Unicode规范,每一个Unicode字符除了有唯一代码点对应,还具有其它属性,现在详细介绍三种属性,它们是:Unicode Property、Unicode Block、Unicode Script,下面的图粗略说明了这三者的关系。


Unicode Property

Unicode Property的记法类似『\p{L}』、『\p{Lo}』,它按照字符的功能分类Unicode字符,而不关心字符属于哪种语言,每个Unicode字符只能属于唯一Unicode Property。

举例来说,『\p{Z}』表示任意的空白字符或不可见的分隔符;『\p{P}』表示任何标点字符,等等。遇到中英文混排、全角半角同时出现的情况,我们就可以用『\p{Z}』匹配所有的空白字符(而不用关心空格到底是全角空格还是半角空格),用『\p{P}』匹配所有的标点字符(而不用关心逗号到底是中文逗号还是英文逗号),而不用费心细节。

如果我们把Unicode Property理解为一个“字符组”,那么它一定能对应某个排除型字符组,此排除型字符组的通行记法是将『\p{xx}』中的小写p改为大写P,写作『\P{xx}』。这样,『\P{Z}』对应『\p{Z}』无法匹配的字符,『\p{P}』对应『\p{P}』无法匹配的字符。Unicode Block和Unicode Script对应的排除型字符组也是这样标记,下面不再赘述。

Unicode Property的完整信息,可参考http://www.regular-expressions.info/unicode.html

Unicode Block

Unicode Block则不同于Unicode Property,它按照编码区间划分Unicode字符,每个Unicode Block中的字符编码都是落在同一个连续区间的。因为Unicode编码表中,某种语言的字符通常是落在同一区间的,所以它也可以粗略表示某类语言的字符,比如\p{InHebrew}表示希伯莱语字符,『\p{InCJK_Compatibility}』表示兼容CJK(汉语、韩语、日本语)的字符。如果你细心观察,会发现Unicod Block的名字虽然类似某种语言的名字,但都有“In”(Java风格)或者“Is”(.NET风格)前缀,这表明它其实对应的还是“落在某个区间的Unicode字符”。

本书介绍的语言中,只有Java和.NET支持Unicode Block,它们的写法不相同:

Java:『\p{ InCJK_Compatibility_Ideographs }』

.NET:『\p{ IsCJK_Compatibility_Ideographs }』

我们可以在Java中用\p{InCJK_Compatibility}或者在.NET中用\p{IsCJK_Compatibility}粗略匹配中文字符,虽然它们可能匹配日文或者韩文字符,尚不够精确,但许多情况下确实够用了。

Java
“我”.matches(“\\p{InCJK_Compatibility_Ideographs}”); //true 
.NET
Regex.IsMatch(‘我’, “\\p{IsCJK_Compatibility_Ideographs}”); //true 


Unicode Block的完整信息,可参考http://www.regular-expressions.info/unicode.html

Unicode Script

Unicode Script按照字符所属的书写系统来划分Unicode字符,比如\p{Greek}表示希腊语字符,\p{Han}表示汉语(中文字符)。它的写法类似Unicode Block,只是名字的开头没有“Is”或者“In”。

在本书介绍的语言中,只有PHP和Ruby(限1.9以上版本)支持Unicode Script,PHP在使用Unicode Script时,必须开启Unicode模式。在这两种语言中,我们可以很方便地用\p{Han}来匹配中文字符。

PHP
preg_match(‘/\p{Han}/u’, ‘我’); //1 
Ruby 1.9
/\p{Han}/u =~ '我' #0 
Unicode Script的完整信息,请参考http://www.regular-expressions.info/unicode.html

小结

用正则表达式处理包含多字节字符(比如中文)的字符串时,最好使用Unicode编码,否则多字节字符很可能被割裂为多个字节,导致匹配错误,最好的办法是使用Unicode编码。

如果实在不能使用Unicode编码,使用字符组时要尤其小心,普通字符组可以用多选分支取代,绕过隐患,但这种办法对排除型字符组行不通。

如果设定了Unicode模式,可以指定Unicode Code Point来表示某个字符,但不同语言中的记法不同,可能是\uxxxx、\u{xxxx}、\x{xxxx}。

Unicode Property描述Unicode字符的属性,.NET、Java、PHP和Ruby(限1.9以上版本)中可以使用Unicode Property。

Unicode Block描述Unicode字符所在的区间,其特征是名称以In或Is为前缀,.NET和Java中可以使用Unicode Block。

Unicode Script描述Unicode字符所在的书写系统,名字类似Unicode Block,但没有In或Is前缀,PHP和Ruby(限1.9以上版本)中可以使用Unicode Script。

无论Unicode Property、Unicode Block、Unicode Script,其对应的排除型字符组都是将开头的\p改为\P,其它不变。

无论Unicode Property、Unicode Block、Unicode Script,都可以视为普通字符组,在字符组[…]中进行拼接组合,比如在PHP和Ruby中,[\p{Han}\p{Po}]既可以匹配汉字字符,又可以匹配任何标点字符。

请参考 http://en.wikipedia.org/wiki/CJK_Unified_Ideographs

版权声明:本文为博主整理自网络资料,转载请注明!

关于unicode汉字范围正则表达式的写法

\u2E80-\u2EFF:CJK部首补充; \u2F00-\u2FDF:康熙部首; \u3000-\u303F:CJK标点符号; \u31C0-\u31EF:CJK笔划; ...
  • archer119
  • archer119
  • 2016年08月13日 22:29
  • 1251

python的正则匹配unicode

最近用到python的正则表达式解析不同的语言,发现有不少细节,写下来留念。   python正则解析unicode的注意点。一是pattern前需要加u来escape unicode,而是源字符串也...
  • liweisnake
  • liweisnake
  • 2013年12月16日 11:56
  • 5746

Python对unicode文件的读写和使用正则表达式

Python对unicode文件的读写和使用正则表达式
  • LuckilyYu
  • LuckilyYu
  • 2011年02月16日 15:14
  • 10782

查找不可见字符的正则表达式

[\x0-\x1f\x7f] 000 00 000 ^@ NUL 001 01 001 ^A SOH 002 02 002 ^B STX 003 03 003 ^C ETX ...
  • lu_huabin
  • lu_huabin
  • 2015年09月11日 10:32
  • 2730

java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍

假如现在有一个需求,要你用java语言来匹配出一个文本里面的所有(英文半角)标点符号,你会怎么写呢?我想大多数人应该是把这些符号都罗列出来, 如: !"#$%&'()*+,-./:;?@[\]^_`{...
  • LinBilin_
  • LinBilin_
  • 2017年03月10日 01:22
  • 601

java中匹配中文的正则表达式

java中要匹配中文的正则表达式可以有两种写法:一是使用unicode中文码;二是直接使用汉字字符; 例: (1)String str = "晴"; String regexStr = "[\u...
  • xyls12345
  • xyls12345
  • 2014年04月17日 16:37
  • 34102

[收藏]匹配Unicode字符的正则表达式

[收藏]匹配Unicode字符的正则表达式 原文:http://blog.sunmast.com/Sunmast/archive/2004/07/30/799.aspx 这里是几个主要非英文语系字符范...
  • jevylau
  • jevylau
  • 2007年04月20日 18:02
  • 596

正则匹配时遇到的编码问题(unicode,gbk,utf-8,中文)

啦啦啦好久没写好懒,这次先不写数据库这个小表砸~其实这个问题好久好久之前的了,现在才写也是懒= =用python写爬虫经常涉及到编码问题,本人用pycharm写代码,基本上都写这里了一.几种常用的编码...
  • ycisacat
  • ycisacat
  • 2015年10月10日 21:19
  • 3285

Java - 正则表达式的运用(Pattern模式和Matcher匹配)—— 匹配中文,英文字母和数字及_长度详解——收集资源blog

java.util.regex.Pattern   模式类:用来表示一个编译过的正则表达式。 java.util.regex.Matcher   匹配类:用模式匹配一个字符串所表达的抽象结果。 二、先...
  • Naploen8
  • Naploen8
  • 2015年12月18日 10:51
  • 5459

Java获取字符的Unicode编码以及如何过滤特殊字符ZWNJ

获取Unicode编码 package com.xs.test; public class Test { public static void main(String[] args) throw...
  • zhangzeyuaaa
  • zhangzeyuaaa
  • 2016年01月07日 13:28
  • 3893
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:正则表达式与unicode
举报原因:
原因补充:

(最多只允许输入30个字)