R语言的各种分布函数
基本统计学and概率论……不记了……
> a = c(98,83,65,72,79,76,75,94,91,77,63,83,89,69,64,78,63,86,91,72,71,72,70,80,65,70,62,74,71,76)
> a
[1] 98 83 65 72 79 76 75 94 91 77 63 83 89 69 64 78 63 86 91 72 71 72 70 80 65 70 62 74 71 76
> length(a)
[1] 30
> mean(a) #求平均数
[1] 75.96667
> median(a) #求中位数
[1] 74.5
> (sort(a)[15]+sort(a)[16])/2
[1] 74.5
> sort(a)
[1] 62 63 63 64 65 65 69 70 70 71 71 72 72 72 74 75 76 76 77 78 79 80 83 83 86 89 91 91 94 98
> var(a) #求方差
[1] 96.51609
> sd(a) #求标准差
[1] 9.82426
常见的数据描述性分析
- 中位数median()
- 百分位数quantile()
> x = c(61,75,101,84.25,80.5)
> x
[1] 61.00 75.00 101.00 84.25 80.50
> quantile(x)
0% 25% 50% 75% 100%
61.00 75.00 80.50 84.25 101.00
quantile()
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,names = TRUE, type = 7, …)
probs给出相应的百分位数,默认是0,1/4.1/2,3/4,1;na.rm是逻辑变量,当ra.rm=TRUE时可以处理缺失数据的情况。
- 五数总括:
最小值min、下四分位数Q1、中位数me、上四分位数Q3、最大值max
> x= c(61,75,101,84.25,80.5)
> fivenum(x,na.rm = TRUE)
[1] 61.00 75.00 80.50 84.25 101.00
协方差与相关系数计算
> x = read.table('score.txt')
> cov(x$V1,x$V2) # 协方差
[1] 8.732323
> cor(x$V1,x$V2) #相关系数
[1] 0.05276291
> cov(x[2:4])
V2 V3 V4
V2 32.5433333 3.7596970 -0.5515152
V3 3.7596970 40.2201010 -0.9636364
V4 -0.5515152 -0.9636364 248.7878788
> cor(x[2:4])
V2 V3 V4
V2 1.000000000 0.103920265 -0.006129313
V3 0.103920265 1.000000000 -0.009633342
V4 -0.006129313 -0.009633342 1.000000000