R语言与统计分析

最新推荐文章于 2024-04-12 21:05:43 发布

feng_lilan

最新推荐文章于 2024-04-12 21:05:43 发布

阅读量4.7k

点赞数 3

分类专栏： R 文章标签： R

R 专栏收录该内容

65 篇文章 72 订阅

订阅专栏

R语言与统计分析之探索性数据分析篇

一、R语言中的统计概念

1、随机实验：
可在相同
2、随机事件

均值u:这个很好理解 R函数:mean
中位数:对序列排序后,排在中间的数,需要特别注意的是如果序列为偶数,中位数是中间两个数平均值. R函数:median
百分位数:也是顺序统计量,设百分数为p,n是样本个数,则p位数指:np为小数,ceiling(np)+1,np为整数,则p位数:(x[np]+x[np+1])/2. R函数:quantile()
方差s^2,标准差s:注意是除以n-1,而不是n.与方差期望的计算不一样.
变异系数CV:s/u*100(%),s标准差,u均值.
样本校正平方和(CSS):样本与均值差的平方的求和,sum((X-u)^2).
样本未校正平方和(USS):样本值平方的求和.sum((X^2))
极差R:max(X)-min(X)
四分位差(半极差):R3-R1.
样本标准误:s/sqrt(n).
偏度系数g1:n^2/((n-1)(n-2)) * u3^3/ s^3,u3:三阶中心矩.
峰度系数g2:u4/u2^2-3

QQ图:如果QQ图近似直线,则说明样本来自正态分布总体;

正太性W检验方法:shapiro.test(x);p-value>0.05表示接受原假设,符合正态分布.
经验分布的Kolmogorov-Smirnov检验:ks.test()

3、参数检验
t.test():对正态总体作均值检验和区间估计；单样本和双样本皆可；
var.test（）：对总体方差比提供检验和区间估计；
var.test（）：二项分布总体检验和估计
chisq.test()：Pearson 拟合优度χ2检验检验是否具有某种分布
ks.test():Kolmogorov-Smirnov检验，检验是否具有某种分布
Fisher：费契尔精确独立检验；
mcnemar.test（）：检验两个相关分布的频率变化的显著性；
binom.test()：二项分布检验，检验某个样本是否来自某个总体，也可以检验两个总体是否存在差异；
cor.test()：相关性检验，包括Spearman秩相关检验.
wilcox.test()：秩检验，比如检验均值与某个值得比较。

4、分类判别

1)距离判别
马氏距离：sqrt(t(X-Y)(X-Y)),判别式：t(x-u) * ∑-1(u1-u2).
2)、贝叶斯判别
3)、费歇尔判别
5、聚类分析

距离：

2) 数据标准化：

3)相关系数

4)系统聚类R语言计算

原文链接：http://blog.csdn.net/hawksoft/article/details/7787970

二、R语言系列学习之各种检验

1、W检验（Shapiro–Wilk (夏皮罗–威克尔 ) W统计量检验)

检验数据是否符合正态分布，R函数：shapiro.test().
结果含义：当p值小于某个显著性水平α(比如0.05)时，则认为

样本不是来自正态分布的总体，否则则承认样本来自正态分布的总体。

2、K检验(经验分布的Kolmogorov-Smirnov检验)

R函数:ks.test(),如果P值很小，说明拒绝原假设，表明数据不符合F(n,m)分布。

3、相关性检验：
R函数：cor.test()

cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = c("pearson", "kendall", "spearman"),
exact = NULL, conf.level = 0.95, ...)

结果含义：如果p值很小，则拒绝原假设，认为x,y是相关的。否则认为是不相关的。

4、T检验
用于正态总体均值假设检验，单样本，双样本都可以。

t.test()

t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)

结果意义：P值小于显著性水平时拒绝原假设，否则，接受原假设。具体的假设要看所选择的是双边假设还是单边假设（又分小于和大于）

5、正态总体方差检验

t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)

结果含义：P值小于显著性水平时拒绝原假设，否则，接受原假设。具体的假设要看所选择的是双边假设还是单边假设（又分小于和大于）

6、二项分布总体假设检验

binom.test(x, n, p = 0.5,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95)

原假设：p=p0,p<p0,p<p0 计算结果p-值很小，表示拒绝假设，否则为接受假设.

7、Pearson 拟合优度χ2检验
chisq.test(x, y = NULL, correct = TRUE,
p = rep(1/length(x), length(x)), rescale.p = FALSE,
simulate.p.value = FALSE, B = 2000)

原假设H0：X符合F分布。
p-值小于某个显著性水平，则表示拒绝原假设，否则接受原假设。
8、Fisher精确的独立检验：
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,
control = list(), or = 1, alternative = "two.sided",
conf.int = TRUE, conf.level = 0.95)
原假设：X,Y相关。

9、McNemar检验：

mcnemar.test(x, y = NULL, correct = TRUE)

原假设：两组数据的频数没有区别。

10、秩相关检验
cor.test(x, y,
alternative = c("two.sided", "less", "greater"),
method = "spearman", conf.level = 0.95, ...)

原假设：x,y相关.

11、Wilcoxon秩检验
wilcox.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, exact = NULL, correct = TRUE,
conf.int = FALSE, conf.level = 0.95, ...)
原假设：中位数大于，小于，不等于mu.

原文链接：http://blog.csdn.net/hawksoft/article/details/7679263