R语言基本备忘-统计分析

本文介绍了R语言中的统计分析,包括峰度、偏度等统计量,以及标准误差、均方误差和标准偏差等概念。此外,还探讨了R中的描述性统计函数,如aggregate()、by()、summaryBy()和describe()。讨论了频数表、列联表的创建方法,以及卡方独立性检验、Fisher精确检验和Cochran-Mantel-Haenszel检验。最后,文章涉及了相关性度量,如Pearson、Spearman和Kendall相关系数,并讲解了相关性检验和t检验的应用。
摘要由CSDN通过智能技术生成

Part1 相关统计量说明


峰度系数Coefficientof kurtosis

http://baike.baidu.com/link?url=gS_sgtNYSRdjLnadNWDDa357DIzJma-tdheAx5eKp0WzTvuH_PYg8hnMNIiP4-DRmewtftVQXXUbtIYzvz4bTq

峰度系数(Kurtosis)用来度量数据在中心聚集程度。在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便)。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。

 

偏度系数skew

http://www.itongji.cn/article/0R326462013.html



SEMean 是 Standard error ofthe mean的缩写,

标准误差平均值,也叫平均数标准误差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。SE Mean的计算公式如下:


http://www.pinzhi.org/thread-7741-1-1.html


均方误差MeanSquared Error, MSE

数理统计中均方误差是指参数估计值与参数真值之差平方的期望值,记为MSE。MSE是衡量“平均误差”的一种较方便的方法,MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。与此相对应的,还有均方根误差RMSE、平均绝对百分误差等等。


标准偏差StdDev,Standard Deviation

标准偏差反映数值相对于平均值(mean) 的离散程度。

http://baike.baidu.com/link?url=_oBhB0gpULQI0aGZ3Xju0u5bxN9X6RonOb_aGEHOJGdUe5J0WfR5H_8ANijgzEmgmWZmnu0H9z0zK_q2ebmTp_

 

变异系数(Coefficientof Variation)

统计百科参考

http://www.itongji.cn/analysis/wiki/

http://www.bbioo.com/lifesciences/40-266598-1.html

 

 

Part2 R中基本统计函数实现


R语言中除本身有的获取统计量的方法summary()之外,能得到描述性统计量的包有Hmisc、pastecs和psych。这里使用的数据是R中已有车辆路试(mtcars)数据集,挑取其中的几个字段,英里数(mpg)、马力(hp)和车重(wt)来做后续的示例数据集。

vars <- c(“mpg”,”hp”,”wt”)
summary(mtcars[vars])
#统计结果有最小值、最大值、平均值、上四分位数、下四分位数
 
library(Hmisc)
describe(mtcars[vars])
#统计结果有总数、缺失数、唯一值、平均值、各个分位数、最大值最小值五个
 
library(pastecs)
stat.desc(mtcars[vars])
#统计结果有总数、null数、NA数、最小、最大、差值、和、平均值、0.95置信区间均值、方差、标准差、变异系数
其方法
desc=FALSE时,基本统计量总数、null数、NA数、最小、最大、差值、和norm=TRUE时,多六个个正态分布统计量,包括偏度和峰度ÿ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值