摘要
这次的问题是要弄清除一个单词在一片文章里出现的次数,用到了str_detect()函数。我把遇到的问题及解决方法分享一下,函数说明按照自己容易理解的方式表达,欢迎指正,谢谢。
函数说明
- str_detect():确定一个字符向量能否匹配一种模式
- str_detect(string,pattern,negate=FALSE)
- string:待匹配字符串(我这里是文章)
- pattern:待匹配的模式(需要去查找的字符串)
- negate:默认为FALSE,如果为TRUE,则返回没有匹配到的元素
- 返回值是逻辑值
实例
1.先导入一个txt文件,各位用自己的文件吧,导入文件需要用到readr包,使用str_detect()函数需要用tidyverse包。
library(readr)
library(tidyverse)
# ***处为各位的文件路径
# what='c' 是以字符形式读入文件
textA=scan('C:/******/text A.txt',what = 'c')
文件读入后大概就是下面这个样子(textA的部分内容):
2.然后要找but,may,maybe,might,would,will出现的次数
a<-sum(str_detect(textA,'but'))
b<-sum(str_detect(textA,'may'