R语言数据处理

可乐　　

已于 2022-04-26 15:01:32 修改

阅读量6.5k

点赞数 6

文章标签： r语言

于 2022-04-24 15:14:23 首次发布

本文链接：https://blog.csdn.net/m0_54356409/article/details/124379848

版权

（3）使用DescTools包中的Freq函数生成频数分布表

（1）将短格式数据转化成长格式数据（数据框中有标识变量（类别因子））

（2）将短格式数据转化成长格式数据（数据框中无标识变量）

一、读取和保存数据

1、读取外部数据

（1）读取不含有标题的csv格式数据

table1_1 <- read.csv('./mydata/chap01/table1_1.csv', header = FALSE)
head(table1_1)

V1 V2 V3
1 性别网购次数满意度
2 女 6次以上满意
3 男 3~5次不满意
4 女 3~5次不满意
5 男 3~5次中立
6 女 1~2次满意

（2）读取含有标题的csv格式数据

table1_1 <- read.csv('./mydata/chap01/table1_1.csv')
head(table1_1)

性别网购次数满意度
1 女 6次以上满意
2 男 3~5次不满意
3 女 3~5次不满意
4 男 3~5次中立
5 女 1~2次满意
6 男 6次以上不满意

（3）读取R格式数据

load('./mydata/chap01/table1_1.RData')

2、保存数据

（1）将数据保存成csv格式

write.csv(table1_1, file='./mydata/chap01/table1_1_1.csv')

（2）将数据保存成R格式

save(table1_1, file='./mydata/chap01/table1_1.RData')

二、随机数和数据抽样

1、生成随机数

# 生成不同分布的随机数
rnorm(10)         # 产生10个标准正态分布随机数
rnorm(10, 50, 5)  # 产生10个均值为50，标准差为5的正态分布随机数
runif(10, 0, 100) # 在0~100之间产生10个均匀分布随机数
rchisq(10, 15)    # 产生10个自由度为1.5的卡方分布随机数



# 想产生相同的随机数，使用set.seed()设定种子，如set.seed(10)

2、数据抽样

n <- 1:10
n1 <- sample(n, size=8)                # 无放回抽取10个数据
n1

[1] 9 7 8 6 3 2 10 5

n2 <- sample(n, size=8, replace=TRUE)  # 有放回抽取10个数据
n2

[1] 2 8 8 7 6 7 6 2

三、生成频数分布表

频数分布表：对类别数据（因子的水平）计数或数值数据类别化（分组）后计数生成的表格。

1、类别数据频数分布表

（1）一维列联表

# 读入数据【2000个消费者的网购情况调查数据】
data1_1 <- read.csv('./mydata/chap01/data1_1.csv')
head(data1_1,5)

性别网购次数满意度
1 女 6次以上满意
2 男 3~5次不满意
3 女 3~5次不满意
4 男 3~5次中立
5 女 1~2次满意

# 查看数据结构
str(data1_1)

'data.frame': 2000 obs. of 3 variables:
$ 性别 : chr "女" "男" "女" "男" ...
$ 网购次数: chr "6次以上" "3~5次" "3~5次" "3~5次" ...
$ 满意度 : chr "满意" "不满意" "不满意" "中立" ...

# 生成满意度的一维表
mytable1 <- table(data1_1$满意度)
mytable1

不满意满意中立
800 520 680

# 将mytable1转换为百分比表
prop.table(mytable1) * 100

不满意满意中立
40 26 34

（二）二维列联表

二维列联表：一个名称放在“行”位置，另一个变量各类别放在“列”位置

# 生成性别和满意度的二维列联表
mytable2 <- table(data1_1$性别, data1_1$满意度) 
mytable2

不满意满意中立
男 360 160 320
女 440 360 360

prop.table(mytable2)      # 所占总量的百分比

不满意满意中立
男 0.18 0.08 0.16
女 0.22 0.18 0.18

prop.table(mytable2, 1)   # 行汇总的百分比

不满意满意中立
男 0.4285714 0.1904762 0.3809524
女 0.3793103 0.3103448 0.3103448

prop.table(mytable2, 2)   # 列汇总的百分比

不满意满意中立
男 0.4500000 0.3076923 0.4705882
女 0.5500000 0.6923077 0.5294118

addmargins(mytable2)      # 为列联表添加边际和

不满意满意中立 Sum
男 360 160 320 840
女 440 360 360 1160
Sum 800 520 680 2000

（三）多维列联表

多维列联表：将一个或多个变量按“列”摆放，其余变按“行”摆放。

# 生成三维列联表（列变量为“满意度”）
mytable3 <- ftable(data1_1, row.vars = c("性别", "网购次数"), col.vars = "满意度")
mytable3

满意度不满意满意中立
性别网购次数
男 1~2次 117 57 106
3~5次 137 54 131
6次以上 106 49 83
女 1~2次 122 114 102
3~5次 179 141 162
6次以上 139 105 96

# 生成三维列联表（列变量为"性别"和"满意度"）
mytable4 <- ftable(data1_1, row.vars = '网购次数', col.vars = c('性别', '满意度'))
mytable4

性别男女
满意度不满意满意中立不满意满意中立
网购次数
1~2次 117 57 106 122 114 102
3~5次 137 54 131 179 141 162
6次以上 106 49 83 139 105 96

# 使用structable函数生成多维表
library(vcd)
structable(data1_1)

网购次数 1~2次 3~5次 6次以上
性别满意度
男不满意 117 137 106
满意 57 54 49
中立 106 131 83
女不满意 122 179 139
满意 114 141 105
中立 102 162 96

structable(网购次数 ~性别 + 满意度, data1_1)

网购次数 1~2次 3~5次 6次以上
性别满意度
男不满意 117 137 106
满意 57 54 49
中立 106 131 83
女不满意 122 179 139
满意 114 141 105
中立 102 162 96

2、数值数据类别化

# 读入数据【某购物网站60天的销售额】
data1_2 <- read.csv('./mydata/chap01/data1_2.csv')
# 查看数据前5行
head(data1_2, 5)

销售额
1 572
2 588
3 678
4 604
5 606

# 查看数据结构
str(data1_2)

'data.frame': 60 obs. of 1 variable:
$ 销售额: int 572 588 678 604 606 686 623 537 566 578 ...

# 查看销售额字段值类型
class(data1_2$销售额)

[1] "integer"

（1）按组数分割

注：生成数值数据频数分布表，先将其类别化（转化为类别或因子数据）

nclass.Sturges(data1_2$销售额)    #nclass.Sturges可算出大概数，具体组数可根据需要调整
v <- as.vector(data1_2$销售额)   # 将销售额转化为向量
cut(v, breaks = 7)               # 按组数切割：将数值向量切割成7组

[1] (561,590] (561,590] (649,679] (590,620] (590,620] (679,708] (620,649] (531,561] (561,590] (561,590] (649,679]
[12] (590,620] (620,649] (590,620] (561,590] (679,708] (620,649] (502,531] (620,649] (561,590] (531,561] (561,590]
[23] (531,561] (561,590] (561,590] (502,531] (620,649] (590,620] (531,561] (649,679] (620,649] (561,590] (620,649]
[34] (620,649] (620,649] (620,649] (620,649] (590,620] (561,590] (561,590] (561,590] (561,590] (531,561] (679,708]
[45] (649,679] (531,561] (561,590] (561,590] (620,649] (590,620] (590,620] (590,620] (590,620] (649,679] (561,590]
[56] (649,679] (502,531] (620,649] (590,620] (590,620]
Levels: (502,531] (531,561] (561,590] (590,620] (620,649] (649,679] (679,708]

cut(v, breaks = 7, right = F)    # 左闭右开

[1] [561,590) [561,590) [649,679) [590,620) [590,620) [679,708) [620,649) [531,561) [561,590) [561,590) [649,679)
[12] [590,620) [620,649) [590,620) [561,590) [679,708) [620,649) [502,531) [620,649) [561,590) [531,561) [561,590)
[23] [531,561) [561,590) [561,590) [502,531) [620,649) [590,620) [531,561) [649,679) [620,649) [561,590) [620,649)
[34] [620,649) [620,649) [620,649) [620,649) [590,620) [561,590) [561,590) [561,590) [561,590) [531,561) [679,708)
[45] [649,679) [531,561) [561,590) [561,590) [620,649) [590,620) [590,620) [590,620) [590,620) [649,679) [561,590)
[56] [649,679) [502,531) [620,649) [590,620) [590,620)
Levels: [502,531) [531,561) [561,590) [590,620) [620,649) [649,679) [679,708)

data1_2$销售额类别 = cut(v, breaks = 5)
head(data1_2,5)

销售额销售额类别
1 572 (543,584]
2 588 (584,626]
3 678 (667,708]
4 604 (584,626]
5 606 (584,626]

（2）按组距分割

# 组距=(最大值 - 最小值)/组数
(max(v) - min(v))/5
mi <- floor(min(v) / 41)
ma <- ceiling(max(v) / 41)
cut(v, breaks = 41*(mi:ma))      # 按组距切割：将数值向量切割成组距为41

[1] (533,574] (574,615] (656,697] (574,615] (574,615] (656,697] (615,656] (533,574] (533,574] (574,615] (656,697]
[12] (615,656] (615,656] (574,615] (533,574] (656,697] (615,656] (492,533] (615,656] (574,615] (533,574] (574,615]
[23] (533,574] (533,574] (533,574] (492,533] (615,656] (574,615] (533,574] (656,697] (615,656] (574,615] (615,656]
[34] (615,656] (615,656] (615,656] (615,656] (574,615] (574,615] (574,615] (533,574] (574,615] (533,574] (697,738]
[45] (656,697] (533,574] (574,615] (574,615] (615,656] (574,615] (574,615] (574,615] (574,615] (656,697] (574,615]
[56] (656,697] (492,533] (615,656] (574,615] (574,615]
Levels: (492,533] (533,574] (574,615] (615,656] (656,697] (697,738]

# 确定组数的常用方法
nclass.Sturges(v)

# 确定组距的方法：组距 = (最大值 - 最小值) / 组数
(max(v) - min(v)) / nclass.Sturges(v)

注：组数和组距可根据分析需要调整

# 分成间隔为30的组，右开
d <- table(cut(v, breaks = 30*(16:24), right = F))
dd <- data.frame(d)    # 组织成数据框
dd

Var1 Freq
1 [480,510) 1
2 [510,540) 4
3 [540,570) 8
4 [570,600) 17
5 [600,630) 14
6 [630,660) 7
7 [660,690) 8
8 [690,720) 1

# 计算频数百分比，结果 保留2位小数
percent <- round(dd$Freq/sum(dd$Freq) * 100, 2)
df <- data.frame(dd, percent)  # 组织成数据框
df

Var1 Freq percent
1 [480,510) 1 1.67
2 [510,540) 4 6.67
3 [540,570) 8 13.33
4 [570,600) 17 28.33
5 [600,630) 14 23.33
6 [630,660) 7 11.67
7 [660,690) 8 13.33
8 [690,720) 1 1.67

# 重新命名并组织成频数分布表
mytable <- data.frame(分组 = df$Var1, 频数 = df$Freq, 频数百分比 = df$percent)
mytable

分组频数频数百分比
1 [480,510) 1 1.67
2 [510,540) 4 6.67
3 [540,570) 8 13.33
4 [570,600) 17 28.33
5 [600,630) 14 23.33
6 [630,660) 7 11.67
7 [660,690) 8 13.33
8 [690,720) 1 1.67

# 实际分组时，可将组距确定易于理解的值，如50
# 分组间隔为50，并生成频数分布表
d <- table(cut(v, breaks = c(500, 550, 600, 650, 700, 750), right = F))
d

[500,550) [550,600) [600,650) [650,700) [700,750)
9 21 21 8 1

（3）使用DescTools包中的Freq函数生成频数分布表

data1_2 <- read.csv('./mydata/chap01/data1_2.csv')
# install.packages('DescTools')
library(DescTools)

# A.默认分组，含上限值
# 简单代码得到组别(level)、各组的频数(freq)、各组频数百分比(perc)、累积频数(cumfreq)、累积频数百分比(cumprec
tab <- Freq(data1_2$销售额)
tab

level freq perc cumfreq cumperc
1 [500,550] 9 15.0% 9 15.0%
2 (550,600] 21 35.0% 30 50.0%
3 (600,650] 21 35.0% 51 85.0%
4 (650,700] 8 13.3% 59 98.3%
5 (700,750] 1 1.7% 60 100.0%

# B.使用Freq函数生成频数分布表，指定组距=20
20*(25:36)
tab1 <- Freq(data1_2$销售额, breaks = 20*(25:36), right = F)
tab1
tab2 <- data.frame(分组 = tab1$level,
                     频数 = tab1$freq,
                     频数百分比 = tab1$perc * 100,
                     累积频数 = tab1$cumfreq,
                     累积百分比 = tab1$cumperc * 100)
print(tab2, digits = 3)  # 用print函数定义输出结果的小数位数

分组频数频数百分比累积频数累积百分比
1 [500,520) 2 3.33 2 3.33
2 [520,540) 3 5.00 5 8.33
3 [540,560) 4 6.67 9 15.00
4 [560,580) 9 15.00 18 30.00
5 [580,600) 12 20.00 30 50.00
6 [600,620) 8 13.33 38 63.33
7 [620,640) 9 15.00 47 78.33
8 [640,660) 4 6.67 51 85.00
9 [660,680) 6 10.00 57 95.00
10 [680,700) 2 3.33 59 98.33
11 [700,720] 1 1.67 60 100.00

四、数据类型的转换

1、将变量转换为向量

table1_1 <- read.csv('./mydata/chap01/table1_1.csv')
table1_1

姓名统计学数学经济学
1 刘文涛 68 85 84
2 王宇翔 85 91 63
3 田思雨 74 74 61
4 徐丽娜 88 100 49
5 丁文彬 63 82 89

vector1 <- as.vector(table1_1$统计学)  # 将统计学分数转换成向量
# 将统计学和数学分数合并转换成一个向量
vector2 <- as.vector(c(table1_1$统计学, table1_1$数学))
vector1;vector2

[1] 68 85 74 88 63

[1] 68 85 74 88 63 85 91 74 100 82

2、将数据框转换成矩阵

# 将table1_1中的第2~4列转换成矩阵mat
mat <- as.matrix(table1_1[, 2:4])
mat
# 矩阵的行名为table1_1第1列的名称
rownames(mat) = table1_1[, 1]
mat

统计学数学经济学
刘文涛 68 85 84
王宇翔 85 91 63
田思雨 74 74 61
徐丽娜 88 100 49
丁文彬 63 82 89

# 将矩阵转换成数据框
as.data.frame(mat)

3、将列联表转化成数据框

library(DescTools)

# 将列联表转化成数据框
df <- Untable(mytable3)
head(df, 3)      #后三行tail(df, 3)

性别网购次数满意度
1 男 1~2次不满意
2 男 1~2次不满意
3 男 1~2次不满意

# 将列联表转化成带有类别频数的数据框
data1_1 <- read.csv('./mydata/chap01/data1_1.csv')
tab <- ftable(data1_1)    # 生成列联表（也可以使用table函数生成列联表）

df <- as.data.frame(tab)      # 将列联表转化成带有类别频数的数据框
head(df)

性别网购次数满意度 Freq
1 男 1~2次不满意 117
2 女 1~2次不满意 122
3 男 3~5次不满意 137
4 女 3~5次不满意 179
5 男 6次以上不满意 106
6 女 6次以上不满意 139

reshape2::melt(table(data1_1))     # 与ftable(data1_1)效果相同

性别网购次数满意度 value
1 男 1~2次不满意 117
2 女 1~2次不满意 122
3 男 3~5次不满意 137
4 女 3~5次不满意 179
5 男 6次以上不满意 106
6 女 6次以上不满意 139
7 男 1~2次满意 57
8 女 1~2次满意 114
9 男 3~5次满意 54
10 女 3~5次满意 141
11 男 6次以上满意 49
12 女 6次以上满意 105
13 男 1~2次中立 106
14 女 1~2次中立 102
15 男 3~5次中立 131
16 女 3~5次中立 162
17 男 6次以上中立 83
18 女 6次以上中立 96

4、将短格式数据转化成长格式数据

（1）将短格式数据转化成长格式数据（数据框中有标识变量（类别因子））

table1_1

姓名统计学数学经济学
1 刘文涛 68 85 84
2 王宇翔 85 91 63
3 田思雨 74 74 61
4 徐丽娜 88 100 49
5 丁文彬 63 82 89

library(reshape2)
melt(table1_1, id.vars = '姓名') # 保持'姓名'列固定，其它列会自动融合
# variable.name、value.name分别用来设定列变量和值的名称
tab_long <- melt(table1_1, id.vars = '姓名', variable.name = '课程', value.name = '分数')
tab_long

姓名课程分数
1 刘文涛统计学 68
2 王宇翔统计学 85
3 田思雨统计学 74
4 徐丽娜统计学 88
5 丁文彬统计学 63
6 刘文涛数学 85
7 王宇翔数学 91
8 田思雨数学 74
9 徐丽娜数学 100
10 丁文彬数学 82
11 刘文涛经济学 84
12 王宇翔经济学 63
13 田思雨经济学 61
14 徐丽娜经济学 49
15 丁文彬经济学 89

（2）将短格式数据转化成长格式数据（数据框中无标识变量）

table1_4 <- read.csv('./mydata/chap01/table1_4.csv')
table1_4

统计学数学经济学
1 68 85 84
2 85 91 63
3 74 74 61
4 88 100 49
5 63 82 89

tab_long <- melt(table1_4, variable.name = '课程', value.name = '分数')  # 不使用标识变量直接融合
tab_long

课程分数
1 统计学 68
2 统计学 85
3 统计学 74
4 统计学 88
5 统计学 63
6 数学 85
7 数学 91
8 数学 74
9 数学 100
10 数学 82
11 经济学 84
12 经济学 63
13 经济学 61
14 经济学 49
15 经济学 89

使用tidyr包中的gather函数融合数据

library(tidyr)
# key、value分别用来设定列变量和值的名称
df1 <- gather(table1_1, key = '课程', value = '分数', '统计学', '数学', '经济学')
df1

可乐　　

关注

6
点赞
踩
75

收藏

觉得还不错? 一键收藏
打赏
0
评论
R语言数据处理

R语言读取和保存数据、随机数生成、生成频数分布表、数据类型转换
复制链接

扫一扫

R语言数据处理

一、读取和保存数据

1、读取外部数据

（1） 读取不含有标题的csv格式数据

（2） 读取含有标题的csv格式数据

（3）读取R格式数据

2、保存数据

（1）将数据保存成csv格式

（2）将数据保存成R格式

二、随机数和数据抽样

1、生成随机数

2、数据抽样

三、生成频数分布表

1、类别数据频数分布表

（1）一维列联表

（二）二维列联表

（三）多维列联表

2、数值数据类别化

（1）按组数分割

（2）按组距分割

（3）使用DescTools包中的Freq函数生成频数分布表

四、数据类型的转换

1、将变量转换为向量

2、将数据框转换成矩阵

3、将列联表转化成数据框

4、将短格式数据转化成长格式数据

（1）将短格式数据转化成长格式数据（数据框中有标识变量（类别因子））

（2）将短格式数据转化成长格式数据（数据框中无标识变量）

“相关推荐”对你有帮助么？

（1）读取不含有标题的csv格式数据

（2）读取含有标题的csv格式数据