一、基本统计描述的实现—基于向量形式
1、案例程序(一)
(1)summary(x)函数:依次计算x向量的最小值、Q1、中位数、均值、Q3、最大值(保留到小数点后3位)
(2)mean(x)函数:计算x向量均值(保留到小数点后6位)
(3)median(x)函数:计算x向量中位数
(4)range(x)函数:计算x向量的取值范围
(5)quantile(x)函数:计算x向量的百分位数(0%、25%、50%、75%、100%)(保留到小数点后1位)
(6)var(x)函数:计算x向量的样本方差
(7)hist(x)函数:绘制x向量的直方图,由测试中的x向量可知,处于[0,5]的数,频数为3;处于(5,10]的数,频数为1;处于(10,15]的数,频数为2;处于(15,20]的数,频数为1。
图1
2、案例程序(二)
(1)min(x)函数:计算x向量的最小值
(2)max(x)函数:计算x向量的最大值
(3)table函数:计算参数中的频数
(4)cut函数:把连续变量分割为类别 要将连续型变量变成离散型因子
(5)breaks:切割点向量,有两个取值,单个整数(表示区分为几个区间)和向量(按照向量里面的数进行分割)
(6)-Inf:表示无穷小
(7)Inf:表示无穷大
(8)right与include.lowest参数如表1所示:
表1
right参数 | include.lowest参数 | 说明 |
FALSE | TRUE | 左闭右开,包括最大值端点 |
TRUE | TRUE | 左开右闭,包括最小值端点 |
TRUE | FALSE | 左开右闭,不包括最小值端点 |
FALSE | FALSE | 左闭右开,包括最小值端点 |
图2
3、案例程序(三)
(1)table(x)函数:统计x向量的每个值的频数(如图3)
(2)pie(table(x))函数:绘制关于table(x)频数的饼状图(如图4)
(3)boxplot(table(x))函数:绘制关于table(x)的箱图(如图5)
(4)barplot(table(x))函数:绘制离散值的直方图(如图6)
(5)hist(table(x))函数:绘制连续值的直方图(如图8)
(6)pdf(“URL”)函数:将上述图像整合到pdf文件中(如图8)
hist与barplot函数区别:hist直方图展示的是数据的分布,bar柱状图展示数据本身的大小。
图3
图4 图5
图6 图7
(7)paste()函数:用于字符串的连接
(8)round(x,n)函数:将数字四舍五入,其中x为数值,n为保留n位小数
(9)pie()函数:绘制饼状图;其中labels参数为扇区的标签;main为饼状图的标题;col为颜色填充,图9中使用rainbow彩色填充扇区
(10)legend()函数:用于设置图例,其中topright为定位图例为右上区域;c(“”,…)为设置图例内容;cex为设置字体大小,fill为填充图例颜色
图9
图10 图11
二、基本统计描述的实现—基于数据库形式
1、连接数据库,安装并加载RODBC包,此处与SqlServer数据库进行了连接的建立。(如图12所示)
2、通过sqlQuery函数查询获取数据(肺炎诊断的治疗结果:1=治愈,2=好转,3=无效,4=死亡);通过table函数获取频数(离散值)。(如图12所示)
3、通过sqlQuery函数查询获取年龄数据;依据年龄段分组,统计频数;依据年龄段分组,饼形图显示;关闭与数据库的连接。(如图12所示)
4、加载RODBC包,此处与SqlServer数据库进行了连接的建立。通过sqlQuery函数查询获取数据(政治与外语的分数结果);绘制箱图(如图13所示);通过border = c("red", "green")将政治和外语的箱子的边界分别设置为红色和绿色。(如图14所示)
图12
图13
图14
三、验证性实验(主成分分析)
现已获取18名小学三年级学生的数学(X1)、语文(X2)、常识(X3)、音乐(X4)、美术(X5)五个学科的成绩,并测试了智商(X6),所得数据参见文件:20-1.sav。
试:利用主成分分析,找出几个相互独立的主成分,以便进一步对各名学生的学习能力进行综合评价。
1、在线安装foreign功能包
2、载入功能包,其功能为:读取数据—'Minitab', 'S', 'SAS', 'SPSS', … 'dBase'
3、从spss数据文件,读取数据,赋给mydata
4、从相关矩阵(cor=TRUE)求解,列出成分得分(scores=TRUE),赋给pr
(1)仅显示标准差
(2)利用汇总,显示全部18个观测值。在结果中,Proportion of Variance:贡献度/率,Cumulative Proportion:累计贡献度/率。由结果显示 前三个主成分的累计贡献率已经达到90% (或85%)可以舍去另外三个主成分 达到降维的目的。
(3)利用汇总,显示18个观测值;并显示主成分的系数矩阵(loadings=TRUE)
以上4步如图15所示。
图15
5、获取主成分与原始指标之间相关关系(如图16所示)
(1)获取标准差
(2)获取贡献率=方差/总方差:方差越大,贡献率越高
(3)获取特征值:贡献率=特征值/6
(4)生成主成分与原始指标之间相关关系的系数数组
(5)为行和列,加上标题
图16
6、画主成分的碎石图并预测(如图17所示)
由碎石图可以看出:在第二个主成分之后,图线变化趋于平稳,因此可以选择前两个主成分做分析(但是,“基于累计贡献率的选定方式”为好)
图17
7、全部显示:主成分的系数矩阵(如图18所示)
图18