r语言 rgl 强制过程中_R语言正则表达式:提取括号中的内容

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要 书评 试读】- 京东图书)。知乎专栏:R语言数据挖掘。邮箱:huang.tian-yuan@qq.com.欢迎合作交流。

如果需要使用R语言进行文本挖掘和自然语言处理,那么字符串的操作时必不可少的,而其中一个重要内容就是使用正则表达式来匹配字符串中相应的内容,从而进行提取。在R语言中,能够完成这项工作的有基本包中的grep,stringr的str_extract等。这里首推stringr包,因为它具有更加直观的语法结构。下面给出两个较为好的资料的链接:

https://github.com/rstudio/cheatsheets/blob/master/regex.pdf​github.com https://github.com/rstudio/cheatsheets/blob/master/strings.pdf​github.com

这两份资料基本涵盖了大部分的应用,不过很多时候如果不够熟练,还是要经常查表才能够知道怎么做。这里就提一个实际例子:如何提取文本中括号中的字符串信息呢?

例子:字符串为"hello world (lalala)",现在想要得到里面的“lalala”。

传统思维(注意括号是保留字符,因此需要双反斜杠,即“(”和“)”。此外,因为要临近括号的内容,因此不能贪婪,要懒惰,所以要用“.+?”,之所以用了加号“+”(而非乘号“*”),是因为如果里面没有东西就不要提取其中的空字符“”了):

library(stringr)

string1 = "hello world (lalala)"
str_extract(string1,"(.+?)")

[1] "(lalala)"

但是我并不想要括号,以前对正则表达式不熟悉的我,一般只能再次使用定位的方法去掉括号,也就是说:

library(tidyverse)

string1 = "hello world (lalala)"

string1 %>% 
  str_extract("(.+?)") %>% 
  str_sub(2,-2)

[1] "lalala"

嗯,这个方法用了很久了已经。感觉问题也不大,即从所得结果中再提取第二个字符到倒数第二个字符的内容,就把括号去掉了。

但事实上,本来是可以一步到位的,即:

str_extract(string1,"(?<=().+?(?=))")
[1] "lalala"

尽管一步到位了,但是要理解它,需要有基本功底。即,需要知道(?<=)和(?=)这两个分别代表什么意思。这个东西叫做零宽度断言(前后预查),具体内容可以参考下面这份资料:

ziishaned/learn-regex​github.com
5a8e6b396100c0dd2a3bf05cefc365d5.png

用语言来解释,就是在“(”之后而且在“)”之前的最短非空内容。所以要清楚这里面哪些括号有对应关系,才能够理解这个正则表达式("(?<=().+?(?=))")的真正意思。

以上内容参考了Extract info inside all parenthesis in R,特别致谢~

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值