探索性数据分析(Exploratory Data
Analysis,EDA):是通过分析数据集以决定选择哪种方法适合统计推断的过程。
4.1 主要分析工具
主要的图形表示方法有(括号中为R语言绘图函数):
(1)条图(barplot):用于分类数据;
(2)直方图(hist)、点图(dotchart)、茎叶图(stem):用于观察数值型分布的形状;
(3)箱线图(boxplot):给出数值型分布的汇总数据,适用于不同分布的比较和拖尾、截尾分布的识别;
(4)正态概率图(qqnorm):用于观察数据是否近似地服从正态分布;
例4-1:
从某大学统计系的学生中随机抽取24人,对数学和统计学的考试成绩进行调查,结果如下,试对这些学生的数学成绩和统计成绩进行探索性分析。
//将文件存放在一个txt文档中
>
MS=read.table("C:\\Users\\lenovo\\Desktop\\mathstat.txt",header=T)
> MS
math stat
1 81 72
2 90 90
3 91 96
4 73 78
5 88 89
6 78 82
7 95 96
8 63 75
9 85 86
10 60 71
11 83 78
12 81 94
13 77 73
14 60 66
15 66 58
16 84 87
17 80 86
18 85 84
19 70 82
20 54 56
21 93 98
22 68 76
> stem(MS$stat)
The decimal point is 1 digit(s) to the
right of the |
5 | 68
6 | 6
7 | 1235688
8 | 2246679
9 | 04668
> stem(MS$math)
The decimal point is 1 digit(s) to the
right of the |
5 | 4
6 | 00368
7 | 0378
8 | 01134558
9 | 0135
> EDA
+ {
+ par(mfrow=c(2,2))#图窗口为2行2列格式
+ hist(x); # 直方图
+ dotchart(x); # 点图
+ boxplot(x,horizontal=T); # 箱式图
+ qqnorm(x);qqline(x)
+ par(mfrow=c(1,1))
+ }
> EDA(MS$math)
> EDA(MS$stat)
>
当数据成偏态分布时,可使用稳健方法去分析,如使用中位数或进行数据变换
4.2 单变量数据分析
4.2.1 分类型数据
取值范围是有限个值或是一个数列构成的变量称为 离散变量,若表示分类情况的离散变量又称为分类变量
对于分类数据,我们可以用频数表来分析,也可以用条形图和饼图来表示
1 分类频数表(table)
频数表可以描述一个分类变量的数值分布概况&