R语言正则表达式语法
在之前文章stringr包里面提到需要用到正则表达式的去处理一些杂乱数据,尤其是在处理从网络爬取的数据,而非自由平台的数据时候,数据是非常脏的。
R语言可运用正则表达式的函数
1、有基础包自带函数grep, grepl, regexpr, gregexpr,regexec,sub,gsub 这些函数的参数都一样
grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, useBytes = FALSE, invert = FALSE)
常用参数说明
pattern:正则表达式或者固定字符串
x:需要处理的数据向量/文本
ignore.case:是否区分大小写
perl:是否用perl兼容的参数
invert:是否返回不匹配的值
2、stringr包中的匹配、提取函数(如:str_replace、str_replace_all、str_detect、str_match、str_extract)同样可以根据正则表达式语法构造所需要的通配符。
正则表达式基本语法:
在R正则表达式里预定义的字符类选集 |
||||||
[:digit:] | 数字:0-9 | [:punct:] | 标点符号 | |||
[:lower:] | 小写字母:a-z | [:graph:] | 图形字符:[:alnum:]、[:punct:] | |||
[:upper:] | 大写字母:A-Z | [:blank:] | 空格字符:空格和制表< |