[每日一答] [20151019] R语言中的正则表达式



元字符

元字符是指正则表达式中使用一些固定的字符,来代表一定的规则,类似关键字的概念。

常用的元字符
代码 说明
. 匹配除换行符以外的任意字符
\w    匹配字母或数字或下划线或汉字
\s    匹配任意的空白符
\d   匹配数字
^    匹配字符串的开始
$    匹配字符串的结束

QQ="12345678"
notQQ="12345d678"
#注意,在R中,\要换成\\,悲剧的规定,大家淡定地接受就好了
grepl('^\\d{5,12}$', QQ)
#TRUE
grepl('^\\d{5,12}$', notQQ)
#FALSE

word="a     g"
grepl('^a\\s*g$', word)
#TRUE
word="a   d  g"
grepl('^a\\s*g$', word)
#FALSE
grepl('^a.*g$', word)

字符转义

如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:
你没办法指定它们,因为它们会被解释成别的意思。
这时你就得使用\来取消这些字符的特殊意义。
因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.

word1="I am a good man."
word2="I am a good man。"
grepl('.$', word1)
#TRUE
grepl('.$', word2)
#TRUE
grepl('\\.$', word1)
#TRUE
grepl('\\.$', word2)
#FALSE

重复

你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。
下面是正则表达式中所有的限定符(指定数量的代码,例如*,{5,12}等):

常用的限定符
代码/语法   说明
*       重复零次或更多次
+      重复一次或更多次
?      重复零次或一次
{n}    重复n次
{n,}    重复n次或更多次
{n,m} 重复n到m次

QQ="12345678"
notQQ="12345d678"
grepl('^\\d{5,12}$', QQ)

范围

使用[]代表字符的可选项,加上-,代表一个范围,例如[1-9],代表了[123456789],[a-d]代表了[abcd]

QQ="12345678"
notQQ="12345d678"
#注意,在R中,\要换成\\,悲剧的规定,大家淡定地接受就好了
grepl('^[0-9]{5,12}$', QQ)
grepl('^[0-9]{5,12}$', notQQ)

反义

常用的反义代码
代码/语法     说明
\W         匹配任意不是字母,数字,下划线,汉字的字符
\S         匹配任意不是空白符的字符
\D         匹配任意非数字的字符
\B         匹配不是单词开头或结束的位置
[^x]        匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

word="a     g"
grepl('^a\\S*g$', word)
#FALSE
word="abcdefg"
grepl('^a\\S*g$', word)
#TRUE
grepl('^[^a]\\S*g$', word)
#FALSE,这里要注意[^a]的用法

逻辑 或者|

word=c("ab", "bc", "cd", "abcd")
grepl('a|b', word)
#TRUE  TRUE FALSE  TRUE



元字符

元字符是指正则表达式中使用一些固定的字符,来代表一定的规则,类似关键字的概念。

常用的元字符
代码 说明
. 匹配除换行符以外的任意字符
\w    匹配字母或数字或下划线或汉字
\s    匹配任意的空白符
\d   匹配数字
^    匹配字符串的开始
$    匹配字符串的结束

QQ="12345678"
notQQ="12345d678"
#注意,在R中,\要换成\\,悲剧的规定,大家淡定地接受就好了
grepl('^\\d{5,12}$', QQ)
#TRUE
grepl('^\\d{5,12}$', notQQ)
#FALSE

word="a     g"
grepl('^a\\s*g$', word)
#TRUE
word="a   d  g"
grepl('^a\\s*g$', word)
#FALSE
grepl('^a.*g$', word)

字符转义

如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:
你没办法指定它们,因为它们会被解释成别的意思。
这时你就得使用\来取消这些字符的特殊意义。
因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.

word1="I am a good man."
word2="I am a good man。"
grepl('.$', word1)
#TRUE
grepl('.$', word2)
#TRUE
grepl('\\.$', word1)
#TRUE
grepl('\\.$', word2)
#FALSE

重复

你已经看过了前面的*,+,{2},{5,12}这几个匹配重复的方式了。
下面是正则表达式中所有的限定符(指定数量的代码,例如*,{5,12}等):

常用的限定符
代码/语法   说明
*       重复零次或更多次
+      重复一次或更多次
?      重复零次或一次
{n}    重复n次
{n,}    重复n次或更多次
{n,m} 重复n到m次

QQ="12345678"
notQQ="12345d678"
grepl('^\\d{5,12}$', QQ)

范围

使用[]代表字符的可选项,加上-,代表一个范围,例如[1-9],代表了[123456789],[a-d]代表了[abcd]

QQ="12345678"
notQQ="12345d678"
#注意,在R中,\要换成\\,悲剧的规定,大家淡定地接受就好了
grepl('^[0-9]{5,12}$', QQ)
grepl('^[0-9]{5,12}$', notQQ)

反义

常用的反义代码
代码/语法     说明
\W         匹配任意不是字母,数字,下划线,汉字的字符
\S         匹配任意不是空白符的字符
\D         匹配任意非数字的字符
\B         匹配不是单词开头或结束的位置
[^x]        匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

word="a     g"
grepl('^a\\S*g$', word)
#FALSE
word="abcdefg"
grepl('^a\\S*g$', word)
#TRUE
grepl('^[^a]\\S*g$', word)
#FALSE,这里要注意[^a]的用法

逻辑 或者|

word=c("ab", "bc", "cd", "abcd")
grepl('a|b', word)
#TRUE  TRUE FALSE  TRUE



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值