R语言与统计分析

R语言与统计分析之 探索性数据分析篇




一、R语言中的统计概念

1、随机实验:
可在相同
2、随机事件

均值u:这个很好理解 R函数:mean
中位数:对序列排序后,排在中间的数,需要特别注意的是如果序列为偶数,中位数是中间两个数平均值.  R函数:median
百分位数:也是顺序统计量,设百分数为p,n是样本个数,则p位数指:np为小数,ceiling(np)+1,np为整数,则p位数:(x[np]+x[np+1])/2. R函数:quantile()
方差s^2,标准差s:注意是除以n-1,而不是n.与方差期望的计算不一样.
变异系数CV:s/u*100(%),s标准差,u均值.
样本校正平方和(CSS):样本与均值差的平方的求和,sum((X-u)^2).
样本未校正平方和(USS):样本值平方的求和.sum((X^2))
极差R:max(X)-min(X)
四分位差(半极差):R3-R1.
样本标准误:s/sqrt(n).
偏度系数g1:n^2/((n-1)(n-2)) * u3^3/ s^3,u3:三阶中心矩.
峰度系数g2:u4/u2^2-3

QQ图:如果QQ图近似直线,则说明样本来自正态分布总体;

正太性W检验方法:shapiro.test(x);p-value>0.05表示接受原假设,符合正态分布.
经验分布的Kolmogorov-Smirnov检验:ks.test()

3、参数检验
t.test():对正态总体作均值检验和区间估计;单样本和双样本皆可;
var.test():对总体方差比提供检验和区间估计;
var.test():二项分布总体检验和估计
chisq.test():Pearson 拟合优度χ2检验 检验是否具有某种分布
ks.test():Kolmogorov-Smirnov检验,检验是否具有某种分布
Fisher:费契尔精确独立检验;
mcnemar.test():检验两个相关分布的频率变化的显著性;
binom.test():二项分布检验,检验某个样本是否来自某个总体,也可以检验两个总体是否存在差异;
cor.test():相关性检验,包括Spearman秩相关检验.
wilcox.test():秩检验,比如检验均值与某个值得比较。

4、分类判别

 1)距离判别
     马氏距离:sqrt(t(X-Y)(X-Y)),判别式:t(x-u) * ∑-1(u1-u2).
  2)、贝叶斯判别
  3)、费歇尔判别
5、聚类分析

距离:


2) 数据标准化:


3)相关系数


4)系统聚类R语言计算



原文链接:http://blog.csdn.net/hawksoft/article/details/7787970


二、R语言系列学习之各种检验

1、W检验(Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)

     检验数据是否符合正态分布,R函数:shapiro.test().
     结果含义:当p值小于某个显著性水平α(比如0.05)时,则认为

    样本不是来自正态分布的总体,否则则承认样本来自正态分布的总体。

2、K检验(经验分布的Kolmogorov-Smirnov检验)

      R函数:ks.test(),如果P值很小,说明拒绝原假设,表明数据不符合F(n,m)分布。

3、相关性检验
     R函数:cor.test()

cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = c("pearson", "kendall", "spearman"),
exact = NULL, conf.level = 0.95, ...)

结果含义:如果p值很小,则拒绝原假设,认为x,y是相关的。否则认为是不相关的。

4、T检验
用于正态总体均值假设检验,单样本,双样本都可以。
   


t.test()

t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)

结果意义:P值小于显著性水平时拒绝原假设,否则,接受原假设。具体的假设要看所选择的是双边假设还是单边假设(又分小于和大于)

5、正态总体方差检验

t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)

结果含义:P值小于显著性水平时拒绝原假设,否则,接受原假设。具体的假设要看所选择的是双边假设还是单边假设(又分小于和大于)


6、二项分布总体假设检验

binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)

原假设:p=p0,p<p0,p<p0 计算结果p-值很小,表示拒绝假设,否则为接受假设.

7、Pearson 拟合优度χ2检验
chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)     

 原假设H0:X符合F分布。
  p-值小于某个显著性水平,则表示拒绝原假设,否则接受原假设。
8、Fisher精确的独立检验:
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,
control = list(), or = 1, alternative = "two.sided",
conf.int = TRUE, conf.level = 0.95)
原假设:X,Y相关。

9、McNemar检验:

mcnemar.test(x, y = NULL, correct = TRUE)

原假设:两组数据的频数没有区别。

10、秩相关检验
cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = "spearman", conf.level = 0.95, ...)

原假设:x,y相关.

11、Wilcoxon秩检验
wilcox.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
conf.int = FALSE, conf.level = 0.95, ...)
原假设:中位数大于,小于,不等于mu.


原文链接:http://blog.csdn.net/hawksoft/article/details/7679263




  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值