4. 数据处理：判断数据类型、数据转换、取子集、【数据框】的各种操作、数据的中心化与标准化

你说的白是什么白_

已于 2023-01-11 09:38:16 修改

阅读量719

点赞数 1

分类专栏： R语言文章标签： r语言

于 2023-01-11 00:26:36 首次发布

本文链接：https://blog.csdn.net/weixin_42214698/article/details/128625186

版权

R语言专栏收录该内容

24 篇文章 187 订阅

订阅专栏

b站课程视频链接：
https://www.bilibili.com/video/BV19x411X7C6?p=1
腾讯课堂(最新，但是要花钱，我花99😢😢元买了，感觉讲的没问题，就是知识点结构有点乱，有点废话）：
https://ke.qq.com/course/3707827#term_id=103855009

本笔记前面的笔记参照b站视频，【后面的画图】参考了付费视频
笔记顺序做了些调整【个人感觉逻辑顺畅】，并删掉一些不重要的内容，以及补充了个人理解
系列笔记目录【持续更新】：https://blog.csdn.net/weixin_42214698/category_11393896.html

1. 判断数据类型（is.xxx）、数据转换（as.xxx）

（1）关于数据框的转换

矩阵转换为数据框：  
dstate.x77 <- as.data.frame(state.x77)  
is.data.frame(dstate.x77)   返回TRUE

数据框转换为矩阵：  
as.matrix(data.frame(state.region,state.x77))  
数据框中的数据类型不相同，转换为矩阵后，所有元素都变成字符串类型。

注意：不是所有数据结构都能进行转换，比如有些数据框就不能转换为向量或者因子。

（2）关于向量的转换

向量转换为矩阵：  
x <- state.abb  
dim(x) <- c(5,10)

向量转换为因子：  
as.factor(x)

向量转换为列表：  
as.list(x)

向量转换为数据框：  
data.frame(x,state.region,state.x77)

关于更多is和as的函数，可以使用methods(is)和methods(as)查看。

2.取子集

2.1 索引方式

#注意：第一行为列名，所以第二行才算是第一行
who <- read.csv("WHO.csv",header = T)

# 1.取1~50行，1~10列 给who1
who1 <- who[c(1:50),c(1:10)]
# 2. 取1,3,5,8行，2,14,16,18列 给who2
who2 <- who[c(1,3,5,8),c(2,14,16,18)]

# 3. 取“xxx”行，所有列给who3    “xxx”—— which(who$Continent==7)
who3 <- who[which(who$Continent==7),]

# 4. 取“xxx”行，所有列给who4    “xxx”—— which(who$CountryID>50 & who$CountryID<=100)
who4 <- who[which(who$CountryID>50 & who$CountryID<=100),]

2.2 subset函数

?subset
# 和who4效果一样
who5 <- subset(who , who$CountryID>50 & who$CountryID<=100 )

2.3 sample函数

?sample
x <- 1:100
sample(x,30) # 默认是replace = F

# 从向量x中，有放回的随机抽取30个元素
sample(x,30,replace = T)
# 从向量x中，不重样的随机抽取60个元素
sample(x,60,replace = F)
sort(sample(x,60,replace = T))

#  取“xxx”行，所有列给who6    “xxx”—— sample(who$CountryID,30,replace = F)
who6 <- who[sample(who$CountryID,30,replace = F),]

2.4 删除固定行/列

mtcars[-1:-5 ,] #删除第1到5行  
mtcars[, -1:-5] #删除第1到5列

mtcars$mpg <- NULL #清空mtcars中的mpg这一列

3.数据框

3.1添加与合并（增加行或列）：data.frame、cbind、rbind

（1）data.frame
data.frame(USArrests,state.division)

（2）cbind列合并   这是列
cbind(USArrests,state.division)

（3）rbind行合并   这是行
注：要求新的数据与原来的数据有相同的列名，否则rbind无法运行。  
data1 <- head(USArrests,30)  
data2 <- tail(USArrests,30)  
data3 <- rbind(data1,data2)

若data1与data2之间有重复行，不会去除重复项，data2中的重复行的行名后会加字符1。
要想取非重复行，可以：  
data3[!duplicated(data3), ]  
或者  
unique(data3)

3.2 行列翻转：t( ) + 序列前后翻转：rev( )

行列翻转【就像矩阵转置】：mtcars1 <- t(mtcars)  

> letters
 [1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t" "u" "v" "w" "x"
[25] "y" "z"
> rev(letters)  # 顺序反转
 [1] "z" "y" "x" "w" "v" "u" "t" "s" "r" "q" "p" "o" "n" "m" "l" "k" "j" "i" "h" "g" "f" "e" "d" "c"
[25] "b" "a"
>
序列前后翻转：原本是1、2、3、4...n行的顺序    现在变成n 、(n-1)、....、3、2、1行的顺序
women <- women[rev(rownames(women)),]

3.3 修改数据框中的值：transform

data.frame(height=women$height*2.54,weight=women$weight)  

这样操作不高效，可以使用transform函数：  
transform(women, height = height*2.54)   #将原height列乘以2.54  
transform(women, cm = height*2.54)  #增加一个cm列

3.4 数据框的排序：sort、order、rank

在R中，和排序相关的函数主要有三个：sort、order和rank函数。  

（1）sort函数  
sort函数是对向量进行排序，返回值是排序后的结果向量。  
sort(state.name)  #从小到大
rev(sort(rivers)) #降序


（2）order函数  
order函数也是对向量进行排序，但其返回值是：sort（）排序后元素值【之前对应位置的索引】
order(rivers)  

# 这行代码，是以行为单位
mtcars[order(mtcars$mpg),]  
mtcars[order(-mtcars$mpg),] #降序  

#多条件排序，在符合mtcars$mpg排序的情况下，对mtcars$disp进行排序
mtcars[order(mtcars$mpg,mtcars$disp),]


（3）rank函数  
rank（）函数返回值是：向量对应元素的排名。
具体参考：https://blog.csdn.net/AnneQiQi/article/details/60878551

请添加图片描述

3.5 对数据框进行数学计算

（1）  
# 转化成数据框
worldphones <- as.data.frame(WorldPhones) 

rs <- rowSums(worldphones) #计算行和  
cm <- colMeans(total) #计算每列平均数  

total_c <- cbind(worldphones,Total=rs)         行合并
total_c_r <-rbind(total,Mean=cm)               列合并



（2）  
apply(x,MARGIN,FUN)  
x是数组、矩阵或数据框；margin等于1代表行，等于2代表列；FUN代表要应用的函数。  
如：  
apply(WorldPhones,MARGIN=1,FUN = sum)  
apply(WorldPhones,MARGIN=2,FUN = mean)  
apply(WorldPhones,MARGIN=2,FUN = Var)  
apply(WorldPhones,MARGIN=2,FUN = log)

（3）其他apply系列函数  
lapply(x,FUN)：l代表list，x是列表，返回值是列表。  
sapply(x,FUN)：s代表simplify，x是列表，返回值是向量或者矩阵。  
tapply(x,INDEX,FUN)：x是向量或其他，INDEX是一组因子，利用这个因子，可以对第一个参数的数据进行分组。

请添加图片描述

3.6 列与列之间进行调整

将第6列~第10列 调整到原先的第15列之后

x[, c(1:5 , 11:15 , 6:10 , 16:20)]

4. 数据的中心化与标准化

数据中心化：数据集中的各项数据 - 数据集的均值。
数据标准化：在中心化之后的数据 / 数据集的标准差

简单来看：  
x <- c(1,2,3,6,3)  ![请添加图片描述](https://img-blog.csdnimg.cn/e567cbfc62684b2294c8d1c107a9e552.jpeg)

中心化：x-mean(x)  
标准化：(x-mean(x))/sd(x)

R中实现数据中心化和标准化可以使用scale函数：  
scale(x,center,scale)：center为TRUE就是做中心化处理，scale为TRUE就是做标准化处理。