一. 基本的数据统计处理
1. 数据的展示
对于一组数据,可以有许多统计分析的方法。
(1) 基本信息
mean():求平均值
sum():求和
sd():求总体标准差——(样本-期望)/(样本数)
var():求样本标准差——(样本-期望)/(样本数-1)
range():求样本数据的范围
(2) 数据展示:
summary():展现一组数据的综合信息,返回一个list
> summary(mtcars$wt)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.513 2.581 3.325 3.217 3.610 5.424
quantile():根据遗嘱数据来分配概率,最小数概率对应0,最大数概率对应1
> quantile(mtcars$wt)
0% 25% 50% 75% 100%
1.51300 2.58125 3.32500 3.61000 5.42400
table():返回一组数据中,每个特异值出现的次数
> table(mtcars$cyl)
4 6 8
11 7 14
2. 数据的分组
等距和等大小分组:
mtcars1 <- mtcars %>% mutate(equal_size = ntile( qsec , 5),
equal_distance = cut( wt,
breaks = seq( from = min(wt), to = max(wt), ##设置断开的位置
by = (max(wt) - min(wt)) / 5 ), ##通过计算步长,层层递进得到最终的序列
include.lowest = T ))
ntile函数通过将数据进行排序,更具分组需要,将数据分为n个组别,返回这组数据对应位置上的数据的组别;等距分组则完全依赖于将数字区间进行军方,利用cut函数将落到不同区间里的数据进行划分,二者的划分结果实质相同;
3. 分析数据的异常值
对于已知总体分布的数据常用 mean ± n*sd (n = 2,3...) 来限定样本中合理值范围,超过这些范围的可认作为异常值;对于未知参数的样本数据,有许多排除一场值的方法,一个经典的方法就是上、下四分位分别加减1.5倍的四分位范围从而限定数的上下限,在此之外的均为一异常值:
(当然在ggplot的geom_box当中,这个范围已经被默认,图中被单独列出的黑点即为异常值,此时不会有正常箱图里表示数据上下界的横线)