R语言自学笔记:数据处理、数据分布及数据检验

本文详细介绍了R语言的基本数据统计处理,包括数据展示、分组、异常值分析;接着探讨了数据分布,如随机数生成及分布分析;进一步讲解了数据的统计检验,如关联性分析和参数非参数检验;最后,阐述了线性回归及其预测方法,如lm函数的应用和线性模型预测。
摘要由CSDN通过智能技术生成

一. 基本的数据统计处理

1. 数据的展示

对于一组数据,可以有许多统计分析的方法。

(1) 基本信息

mean():求平均值

sum():求和

sd():求总体标准差——(样本-期望)/(样本数)

var():求样本标准差——(样本-期望)/(样本数-1)

range():求样本数据的范围

(2) 数据展示:

summary():展现一组数据的综合信息,返回一个list

> summary(mtcars$wt)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.513   2.581   3.325   3.217   3.610   5.424 

quantile():根据遗嘱数据来分配概率,最小数概率对应0,最大数概率对应1

> quantile(mtcars$wt)
     0%     25%     50%     75%    100% 
1.51300 2.58125 3.32500 3.61000 5.42400 

table():返回一组数据中,每个特异值出现的次数

> table(mtcars$cyl)

 4  6  8 
11  7 14 

2. 数据的分组

等距和等大小分组:

mtcars1 <- mtcars %>%  mutate(equal_size = ntile( qsec , 5),
                              equal_distance = cut( wt,
breaks = seq( from = min(wt), to = max(wt),  ##设置断开的位置
by = (max(wt) - min(wt)) / 5 ),  ##通过计算步长,层层递进得到最终的序列
include.lowest = T ))

ntile函数通过将数据进行排序,更具分组需要,将数据分为n个组别,返回这组数据对应位置上的数据的组别;等距分组则完全依赖于将数字区间进行军方,利用cut函数将落到不同区间里的数据进行划分,二者的划分结果实质相同;

3. 分析数据的异常值

对于已知总体分布的数据常用 mean ± n*sd (n = 2,3...) 来限定样本中合理值范围,超过这些范围的可认作为异常值;对于未知参数的样本数据,有许多排除一场值的方法,一个经典的方法就是上、下四分位分别加减1.5倍的四分位范围从而限定数的上下限,在此之外的均为一异常值:

(当然在ggplot的geom_box当中,这个范围已经被默认,图中被单独列出的黑点即为异常值,此时不会有正常箱图里表示数据上下界的横线)


                
  • 1
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值