6.字符型数据及其处理


(学习资料参考北京大学李东风老师《R语言教程》)

6 字符型数据及其处理

6.1 字符型向量

字符型向量是元素为字符串的向量。 如:

s1 <- c('abc', '', 'a cat', NA, '李明')

结果会在右上角的环境中如下显示:
在这里插入图片描述
注意,空字符串并不能自动认为是缺失值, 字符型的缺失值仍用NA表示。

6.2 paste()函数

针对字符型数据最常用的R函数是 paste() 函数。

  1. paste() 用来连接两个字符型向量, 元素一一对应连接, 默认用空格连接。

如输入 paste(c("ab", "cd"), c("ef", "gh")) ,输出结果如下:
在这里插入图片描述
相当于 c("ab ef", "cd gh")

  1. paste() 在连接两个字符型向量时采用R的一般向量间运算规则, 而且可以自动把数值型向量转换为字符型向量。 可以作一对多连接,.

如输入 paste("x", 1:3) ,输出结果如下:
在这里插入图片描述
相当于 c("x 1", "x 2", "x 3")

  1. sep= 指定分隔符, 如 paste("x", 1:3, sep="") 结果相当于 c("x1", "x2", "x3")
  2. 使用 collapse= 参数可以把字符型向量的各个元素连接成一个单一的字符串, 如 paste(c("a", "b", "c"), collapse="") 结果相当于 "abc"

6.3 转换大小写

toupper() 函数把字符型向量内容转为大写,tolower() 函数转为小写。
如:

toupper('aB cd')

输出结果如下:
在这里插入图片描述
再如:

tolower(c('aB', 'cd'))

输出结果如下:
在这里插入图片描述
ps. 这两个函数可以用于不区分大小写的比较, 比如,不论x的值是’JAN’, ‘Jan’还是’jan’, toupper(x)=='JAN'的结果都为TRUE。

6.4 字符串长度

nchar(x, type='bytes') 计算字符型向量 x 中每个字符串的以字节为单位的长度,这一点对中英文是有差别的, 中文通常一个汉字占两个字节,英文字母、数字、标点占一个字节。

nchar(x, type='chars') 计算字符型向量 x 中每个字符串的以字符个数为单位的长度,这时一个汉字算一个单位。

在画图时可以用 strwidth() 函数计算某个字符串或表达式占用的空间大小。

6.5 取子串

  1. substr(x, start, stop) 从字符串 x 中取出从第start个到第stop个的子串, 如:
substr('JAN07', 1, 3)

输出结果如下:
输出了JAN07中第1-3个子串

  1. 如果 x 是一个字符型向量,substr 将对每个元素取子串。如:
substr(c('JAN07', 'MAR66'), 1, 3)

输出结果如下:
在这里插入图片描述

  1. substring(x, start) 可以从字符串 x 中取出从第start个到末尾的子串。如:
substring(c('JAN07', 'MAR66'), 4)

输出结果如下:
在这里插入图片描述

6.6 类型转换

  1. as.numeric() 把内容是数字的字符型值转换为数值。as.numeric() 是向量化的, 可以转换一个向量的每个元素为数值型。

先看第一个

substr('JAN07', 4, 5)

输出结果如下:
在这里插入图片描述
意思是取字符串中第4、5个,得到结果是07字符串

再看第二个

substr('JAN07', 4, 5) + 2000

输出结果如下:
在这里插入图片描述
因为得到的07是字符串,不能和2000相加,所以出现报错,如果想要他们相加做如下处理:

as.numeric(substr('JAN07', 4, 5)) + 2000

输出结果如下:
在这里插入图片描述
此时将第一个字符串变成数值07,就可以和2000相加。
再如:

as.numeric(substr(c('JAN07', 'MAR66'), 4, 5))

输出结果如下:
在这里插入图片描述

  1. as.character() 函数把数值型转换为字符型,如:
as.character((1:5)*5)

输出结果如下:
在这里插入图片描述

  1. 为了用指定的格式数值型转换成字符型, 可以使用 sprintf() 函数, 其用法与C语言的 sprintf() 函数相似, 只不过是向量化的。例如:
sprintf('file%03d.txt', c(1, 99, 100))

输出结果如下:
在这里插入图片描述
没太看懂??

6.7 字符串拆分

strsplit() 函数可以把一个字符串按照某种分隔符拆分开,例如:

x <- '10,8,7'
strsplit(x, ',', fixed=TRUE)[[1]]

输出结果如下:

如果想把 x中各数值求和,可用以下函数:

sum(as.numeric(strsplit(x, ',', fixed=TRUE)[[1]]))

输出结果如下:
在这里插入图片描述

6.8 字符串替换功能

gsub() 可以替换字符串中的子串, 这样的功能经常用在数据清理中。 比如,把数据中的中文标点改为英文标点, 去掉空格,等等。 如:

x <- '1, 3; 5'
gsub(';', ',', x, fixed=TRUE)

输出结果如下:
在这里插入图片描述
这里 gsub 函数,把原来x中的分号换成了逗号输出。

再举个例子:

strsplit(gsub(';', ',', x, fixed=TRUE), ',')[[1]]

输出结果如下:
在这里插入图片描述
以上是先将x中的分号换成逗号,再按分隔符拆开

6.9 正则表达式

正则表达式 (regular expression) 是一种匹配某种字符串模式的方法。 用这样的方法,可以从字符串中查找某种模式的出现位置, 替换某种模式,等等。 这样的技术可以用于文本数据的预处理, 比如用网络爬虫下载的大量网页文本数据。 R中支持perl语言格式的正则表达式, grep()grepl() 函数从字符串中查询某个模式, sub()gsub() 替换某模式。 比如, 下面的程序把多于一个空格替换成一个空格:

gsub('[[:space:]]+', ' ', 'a   cat  in a box', perl=TRUE)

输出结果如下:
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值