R语言基本备忘-统计分析

最新推荐文章于 2021-12-20 10:14:31 发布

EchoCaiCai

最新推荐文章于 2021-12-20 10:14:31 发布

阅读量7.8k

点赞数 4

分类专栏：基础备忘

本文链接：https://blog.csdn.net/cl1143015961/article/details/45665413

版权

本文介绍了R语言中的统计分析，包括峰度、偏度等统计量，以及标准误差、均方误差和标准偏差等概念。此外，还探讨了R中的描述性统计函数，如aggregate()、by()、summaryBy()和describe()。讨论了频数表、列联表的创建方法，以及卡方独立性检验、Fisher精确检验和Cochran-Mantel-Haenszel检验。最后，文章涉及了相关性度量，如Pearson、Spearman和Kendall相关系数，并讲解了相关性检验和t检验的应用。

摘要由CSDN通过智能技术生成

Part1 相关统计量说明

峰度系数Coefficientof kurtosis

http://baike.baidu.com/link?url=gS_sgtNYSRdjLnadNWDDa357DIzJma-tdheAx5eKp0WzTvuH_PYg8hnMNIiP4-DRmewtftVQXXUbtIYzvz4bTq

峰度系数（Kurtosis）用来度量数据在中心聚集程度。在正态分布情况下，峰度系数值是3（但是SPSS等软件中将正态分布峰度值定为0，是因为已经减去3，这样比较起来方便）。>3的峰度系数说明观察量更集中，有比正态分布更短的尾部；<3的峰度系数说明观测量不那么集中，有比正态分布更长的尾部，类似于矩形的均匀分布。

偏度系数skew

http://www.itongji.cn/article/0R326462013.html

SEMean 是 Standard error ofthe mean的缩写，

标准误差平均值，也叫平均数标准误差，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。SE Mean的计算公式如下：

http://www.pinzhi.org/thread-7741-1-1.html

均方误差MeanSquared Error, MSE

数理统计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量“平均误差”的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。与此相对应的，还有均方根误差RMSE、平均绝对百分误差等等。

标准偏差StdDev,Standard Deviation

标准偏差反映数值相对于平均值(mean) 的离散程度。

http://baike.baidu.com/link?url=_oBhB0gpULQI0aGZ3Xju0u5bxN9X6RonOb_aGEHOJGdUe5J0WfR5H_8ANijgzEmgmWZmnu0H9z0zK_q2ebmTp_

变异系数（Coefficientof Variation）

统计百科参考

http://www.itongji.cn/analysis/wiki/

http://www.bbioo.com/lifesciences/40-266598-1.html

Part2 R中基本统计函数实现

R语言中除本身有的获取统计量的方法summary()之外，能得到描述性统计量的包有Hmisc、pastecs和psych。这里使用的数据是R中已有车辆路试（mtcars）数据集，挑取其中的几个字段，英里数(mpg)、马力(hp)和车重(wt)来做后续的示例数据集。

vars <- c(“mpg”,”hp”,”wt”)
summary(mtcars[vars])
#统计结果有最小值、最大值、平均值、上四分位数、下四分位数
 
library(Hmisc)
describe(mtcars[vars])
#统计结果有总数、缺失数、唯一值、平均值、各个分位数、最大值最小值五个
 
library(pastecs)
stat.desc(mtcars[vars])
#统计结果有总数、null数、NA数、最小、最大、差值、和、平均值、0.95置信区间均值、方差、标准差、变异系数

其方法