R语言进阶之二：文本（字符串）处理与正则表达式

最新推荐文章于 2024-07-25 16:21:21 发布

金子哦

最新推荐文章于 2024-07-25 16:21:21 发布

阅读量2.3k

点赞数 1

分类专栏： R语言基础

本文链接：https://blog.csdn.net/u014801157/article/details/24372415

版权

本文详细介绍了R语言中的文本处理方法，包括正则表达式简介、字符数统计、字符串连接、拆分、查询、替换、提取等操作。文中列举了多个实用函数，如nchar、tolower、paste、strsplit、grep、sub和gsub等，并通过实例展示了如何利用这些函数高效地处理文本。此外，还讨论了正则表达式的元字符、运算顺序及其在R中的应用。

摘要由CSDN通过智能技术生成

处理文本是每一种计算机语言都应该具备的功能，但不是每一种语言都侧重于处理文本。R语言是统计的语言，处理文本不是它的强项，perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强，DNA/RNA/AA等生物序列现在已经可以使用R来处理。

R语言处理文本的能力虽然不强，但适当用用还是可以大幅提高工作效率的，而且有些文本操作还不得不用。高效处理文本少不了正则表达式（regular expression），虽然R在这方面先天不足，但它处理字符串的绝大多数函数还都使用正则表达式。

1 正则表达式简介

正则表达式不是R的专属内容，这里只做简单介绍，更详细的内容请查阅其他文章。

正则表达式是用于描述/匹配一个文本集合的表达式：

所有英文字母、数字和很多可显示的字符本身就是正则表达式，用于匹配它们自己。比如 “a” 就是匹配字母 “a” 的正则表达式
一些特殊的字符在正则表达式中不在用来描述它自身，它们在正则表达式中已经被“转义”，这些字符称为“元字符”。perl类型的正则表达式中被转义的字符有：. \ | ( ) [ ] { } ^ $ * + ?。被转义的字符已经有特殊的意义，如点号 . 表示任意字符；方括号表示选择方括号中的任意一个（如[a-z] 表示任意一个小写字符）；^ 放在表达式开始出表示匹配文本开始位置，放在方括号内开始处表示非方括号内的任一字符；大括号表示前面的字符或表达式的重复次数；| 表示可选项，即 | 前后的表达式任选一个。
如果要在正则表达式中表示元字符本身，比如我就要在文本中查找问号“?”，那么就要使用引用符号（或称换码符号），一般是反斜杠 “\”。需要注意的是，在R语言中得用两个反斜杠即 “\\”，如要匹配括号就要写成 “\$\$”
不同语言或应用程序（事实上很多规则都通用）定义了一些特殊的元字符用于表示某类字符，如 \d 表示数字0-9， \D 表示非数字，\s 表示空白字符（包括空格、制表符、换行符等），§ 表示非空白字符，\w 表示字（字母和数字），\W 表示非字，\< 和 \> 分别表示以空白字符开始和结束的文本。
正则表达式符号运算顺序：圆括号括起来的表达式最优先，然后是表示重复次数的操作（即：* + {} ），接下来是连接运算（其实就是几个字符放在一起，如abc），最后是表示可选项的运算（|）。所以 “foot|bar” 可以匹配“foot”或者“bar”，但是“foot|ba{2}r”匹配的是“foot”或者“baar”。

2 字符数统计和字符翻译

2.1 nchar和length

nchar这个函数简单，统计向量中每个元素的字符个数，注意这个函数和length函数的差别：nchar是向量元素的字符个数，而length是向量长度（向量元素的个数）。其他没什么需要说的。

x <- c("Hellow", "World", "!")
nchar(x)

## [1] 6 5 1

length("")

## [1] 1

nchar("")

## [1] 0

2.2 tolower，toupper和chartr

这三个函数用法也很简单：

DNA <- "AtGCtttACC"
tolower(DNA)

## [1] "atgctttacc"

toupper(DNA)

## [1] "ATGCTTTACC"

chartr("Tt", "Uu", DNA)

## [1] "AuGCuuuACC"

chartr("Tt", "UU", DNA)

## [1] "AUGCUUUACC"

3 字符串连接

3.1 paste函数

paste应该是R中最常用字符串函数了，也是R字符串处理函数里面非常纯的不使用正则表达式的函数（因为用不着）。它相当于其他语言的strjoin，但是功能更强大。它把向量连成字串向量，其他类型的数据会转成向量，但不一定是你要的结果：

paste("CK", 1:6, sep = "")

## [1] "CK1" "CK2" "CK3" "CK4" "CK5" "CK6"

x <- list(a = "aaa", b = "bbb", c = "ccc")
y <- list(d = 1, e = 2)
paste(x, y, sep = "-")  #较短的向量被循环使用

## [1] "aaa-1" "bbb-2" "ccc-1"

z <- list(x, y)
paste("T", z, sep = ":")

## [1] "T:list(a = \"aaa\", b = \"bbb\", c = \"ccc\")"
## [2] "T:list(d = 1, e = 2)"

最低0.47元/天解锁文章

金子哦

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录