R语言自学笔记：数据处理、数据分布及数据检验

阳露载天

已于 2022-03-05 15:08:39 修改

阅读量3.9k

点赞数 1

文章标签： r语言

于 2022-03-05 15:07:52 首次发布

本文链接：https://blog.csdn.net/swiiss/article/details/123257424

版权

本文详细介绍了R语言的基本数据统计处理，包括数据展示、分组、异常值分析；接着探讨了数据分布，如随机数生成及分布分析；进一步讲解了数据的统计检验，如关联性分析和参数非参数检验；最后，阐述了线性回归及其预测方法，如lm函数的应用和线性模型预测。

摘要由CSDN通过智能技术生成

一. 基本的数据统计处理

1. 数据的展示

对于一组数据，可以有许多统计分析的方法。

(1) 基本信息

mean()：求平均值

sum()：求和

sd()：求总体标准差——（样本-期望）/（样本数）

var()：求样本标准差——（样本-期望）/（样本数-1）

range()：求样本数据的范围

(2) 数据展示：

summary()：展现一组数据的综合信息，返回一个list

> summary(mtcars$wt)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.513   2.581   3.325   3.217   3.610   5.424

quantile()：根据遗嘱数据来分配概率，最小数概率对应0，最大数概率对应1

> quantile(mtcars$wt)
     0%     25%     50%     75%    100% 
1.51300 2.58125 3.32500 3.61000 5.42400

table()：返回一组数据中，每个特异值出现的次数

> table(mtcars$cyl)

 4  6  8 
11  7 14

2. 数据的分组

等距和等大小分组：

mtcars1 <- mtcars %>%  mutate(equal_size = ntile( qsec , 5),
                              equal_distance = cut( wt,
breaks = seq( from = min(wt), to = max(wt),  ##设置断开的位置
by = (max(wt) - min(wt)) / 5 ),  ##通过计算步长，层层递进得到最终的序列
include.lowest = T ))

ntile函数通过将数据进行排序，更具分组需要，将数据分为n个组别，返回这组数据对应位置上的数据的组别；等距分组则完全依赖于将数字区间进行军方，利用cut函数将落到不同区间里的数据进行划分，二者的划分结果实质相同；

3. 分析数据的异常值

对于已知总体分布的数据常用 mean ± n*sd （n = 2,3...）来限定样本中合理值范围，超过这些范围的可认作为异常值；对于未知参数的样本数据，有许多排除一场值的方法，一个经典的方法就是上、下四分位分别加减1.5倍的四分位范围从而限定数的上下限，在此之外的均为一异常值：

（当然在ggplot的geom_box当中，这个范围已经被默认，图中被单独列出的黑点即为异常值，此时不会有正常箱图里表示数据上下界的横线）

最低0.47元/天解锁文章

阳露载天

关注

1
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
R语言自学笔记：数据处理、数据分布及数据检验

一. 基本的数据统计处理1. 数据的展示对于一组数据，可以有许多统计分析的方法。(1) 基本信息mean()：求平均值sum()：求和sd()：求总体标准差——（样本-期望）/（样本数）var()：求样本标准差——（样本-期望）/（样本数-1）range()：求样本数据的范围(2) 数据展示：summary()：展现一组数据的综合信息，返回一个list> summary(mtcars$wt) Min. 1st Qu. Median Mea
复制链接

扫一扫