R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数与Python中Re库

最新推荐文章于 2022-08-30 15:29:47 发布

百味生

最新推荐文章于 2022-08-30 15:29:47 发布

阅读量3.1k

点赞数 2

　　R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数都使用正则表达式的规则进行匹配。默认是egrep的规则，也可以选用Perl语言的规则。在这里，我们以R中的sub函数为例（因为该函数可以返回替换字符串后的具体内容）介绍正则表达式的用法。

　　对该函数的逻辑参数都使用默认值（ignore.case = FALSE，表示大小写敏感；extended = TRUE，表示使用egrep规则；perl = FALSE，表示不使用Perl规则；fixed = FALSE，表示不使用精确匹配；useBytes = FALSE，表示按字符匹配）。另外三个中，pattern为字符串表示正则表达式，replacement也是字符串表示替换的内容，x为字符型向量表示被替换的字符向量。该函数会根据pattern的规则对x中各元素进行搜索，遇到符合条件的第一个子字符串的位置（gsub是替换所有符合条件的），用replacement替换该子字符串，返回替换后的结果，和x的结构相同。为了清晰地介绍例子，我们对replacement统一赋值为“”，相当于去掉搜寻出来的子字符串。例如sub(“a”,”“,c(“abcd”,”dcba”))，将向量中的两个字符串中的a都去掉了，返回[1] “bcd” “dcb”。该例中的”a”只是一个字符，并不是正则表达式，真正的正则表达式依靠元字符进行灵活的匹配。

　　“^”匹配一个字符串的开始，比如sub(“^a”,”“,c(“abcd”,”dcba”))，表示将开头为a的字符串中的a替换成空，在返回值中可以发现后面出现的a并没有被替换。如果要将开头的一个字符串替换，简单地写成“^ab”就行。

　“$”匹配一个字符串的结尾，比如sub(“a$”,”“,c(“abcd”,”dcba”))表示将以a结尾的字符串中的a替换成空。
　“.”表示除了换行符以外的任一字符，比如 sub(“a.c”,”“,c(“abcd”,”sdacd”))。
　“*”表示将其前的字符进行0个或多个的匹配，比如sub(“a*b”,”“,c(“aabcd”,”dcaaaba”))。
　“?”匹配0或1个正好在它之前的那个字符，
　“+”匹配1或多个正好在它之前的那个字符。
　“.*”可以匹配任意字符，比如sub(“a.*e”,”“,c(“abcde”,”edcba”))。

　“|”表示逻辑的或，比如sub(“ab|ba”,”“,c(“abcd”,”dcba”))，可以替换ab或者ba。
　“^”还可以表示逻辑的补集，需要写在“[]”中，比如sub(“[^ab]”,”“,c(“abcd”,”dcba”))，由于sub只替换搜寻到的第一个，因此这个例子中用gsub效果更好。

　　“[]”还可以用来匹配多个字符，如果不使用任何分隔符号，则搜寻这个集合，比如在sub(“[ab]”,”“,c(“abcd”,”dcba”))中，和”a|b”效果一样。“[-]”的形式可以匹配一个范围，比如sub(“[a-c]”,”“,c(“abcde”,”edcba”))匹配从a到c的字符，sub(“[1-9]”,”“,c(“ab001”,”001ab”))匹配从1到9的数字。

　　以上是最基础的正则表达式元字符，在一些正则表达式的书籍和资料中有非常详细的介绍。最后需要提一下的是“贪婪”和“懒惰”的匹配规则。默认情况下是匹配尽可能多的字符，是为贪婪匹配，比如sub(“a.b”,”“,c(“aabab”,”eabbe”))，默认匹配最长的a开头b结尾的字串，也就是整个字符串。如果要进行懒惰匹配，也就是匹配最短的字串，只需要在后面加个“?”，比如sub(“a.?b”,”“,c(“aabab”,”eabbe”))，就会匹配最开始找到的最短的a开头b结尾的字串。

操作符	说明	实例
.	表示任何单个字符
[ ]	字符集，对单个字符给出取值范围	[abc]表示a、b、c,[a-z]表示a到z单个字符
[^ ]	非字符集，对单个字符给出排除范围	[^abc]表示非a或b或c的单个字符
*	前一个字符0次或无限次扩展	abc* 表示ab、abc、abcc、abccc等
+	前一个字符1次或无限次扩展	abc+ 表示abc、abcc、abccc等
?	前一个字符0次或1次扩展	abc? 表示ab、abc
\|	左右表达式任选一个	abc \| def 表示abc、def
{m}	扩展前一个字符m次	ab{2}c表示abbc
{m,n}	扩展前一个字符m至n次（含n）	ab{1,2}c表示abc、abbc
^	匹配字符串开头	^abc表示abc且在一个字符串的开头
$	匹配字符串结尾	abc$表示abc且在一个字符串的结尾
( )	分组标记，内部只能使用 \| 操作符	(abc)表示abc，(abc \| def)表示abc、def
\d	数字，等价于[0‐9]
\w	单词字符，等价于[A‐Za‐z0‐9_]

Python中Re库主要功能函数

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer()	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串
re.compile()	将正则表达式的字符串形式编译成正则表达式对象

Re库的Match对象

>>> match = re.search(r'[1‐9]\d{5}', 'BIT 100081')
>>> if match:
print(match.group(0))
>>> type(match)
<class '_sre.SRE_Match'>

Match对象的属性

属性	说明
.string	待匹配的文本
.re	匹配时使用的patter对象（正则表达式）
.pos	正则表达式搜索文本的开始位置
.endpos	正则表达式搜索文本的结束位置
.group(0)	获得匹配后的字符串
.start()	匹配字符串在原始字符串的开始位置
.end()	匹配字符串在原始字符串的结束位置
.span()	返回(.start(), .end())

Re库的贪婪匹配和最小匹配

贪婪匹配

>>> match = re.search(r'PY.*N', 'PYANBNCNDN')
>>> match.group(0)
'PYANBNCNDN'

最小匹配

>>> match = re.search(r'PY.*?N', 'PYANBNCNDN')
>>> match.group(0)
'PYAN'

最小匹配操作符

操作符	说明
*?	前一个字符0次或无限次扩展，最小匹配
+?	前一个字符1次或无限次扩展，最小匹配
??	前一个字符0次或1次扩展，最小匹配
{m,n}?	扩展前一个字符m至n次（含n），最小匹配

Python正则表达式扩展阅读