R语言学习笔记_数据清理2

统计学是如何总结数据特点的
分布(离散型、连续型)
描述、相关
单变量:描述
集中趋势、分散趋势
双变量:相关
共同变化趋势(协方差、相关系数)
可视化探索

数据分布
分布就是概率
可能结果(取值)有哪些
每个结果或者某个范围内的概率是多少?
可视化展现
概率密度图
累积分布图
常见分布
分类变量:二项分布、泊松分布
数值变量:均匀分布、正态分布、指数分布

得到分布是研究的最高境界,说着容易做着难。很多时候是不能得到分部的,这时就有了另一种抓取数字特点的方法–数字特征

描述————集中趋势
集中趋势是一组数据向某一中心值靠拢的程度,反映了一组数据的中心点的位置所在
分类变量
众数
数值变量
均值(切尾均值、算数平均数、加权平均数、几何平均数)
均值的无用
单峰分布
极值的影响
不能简单求和
中位数(左偏、右偏)
分位数
中位数、分位数比均值更好
历史因性能原因(均值O(n),分位数O(logn))

描述————离散趋势
集中趋势反应的是变量值向其中心值集中的程度。变量间的差异状况如何呢?
离散趋势反应的是各变量值远离其中心值的程度
集中趋势的统计量是从一组数据中选择代表,但是这个代表的代表能力取决于数据的离散程度。数据越离散,代表能力就越弱;数据越集中,代表能力就越强。

统计量
    极差
    方差、标准差
    z分数
经验法则
切比雪夫定理

相关
协方差
cov
协方差取值范围

相关系数
    cor
    对协方差的单位化,取值范围[-1,+1]

单变量的描述
数值型变量
mean 均值、weighted.mean 加权平均数,median 中位数、quantile 分位数
var 方差、sd 标准差、min、max
summary 、fivenum
sum、length、prod
分类型变量
table
prop.table
分组统计
split、sapply、lapply、tapply
aggregate
by

双变量的相关
cov
cor
use:complete.obs、pairwise.complete.obs

可视化
单变量
散点图plot
箱线图boxplot
柱状图barplot
直方图hist、密度图
小提琴图(vioplot::vioplot)
QQ图(qqnorm、qqline、car::qq.plot)

双变量
    散点图 plot、jitter、smoothScatter、sunflowerplot
    散点图集 pairs、plot、car::scatterplotMatrix
    相关性 corrgram::corrgram

分组:
    lattice包
        xyplot 散点图
        bwplot 箱线图
        histogram 直方图
        densityplot 密度图

代码示例:
    > str(airquality)
    'data.frame':	153 obs. of  6 variables:
     $ Ozone  : int  41 36 12 18 N
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值