统计学之描述统计篇

一、描述统计-位置的度量

平均值,众数,中位数,百分位数,四分位数

二、描述统计-变异程度度量

标准差

方差

四分位间距

偏度:描述数据偏移方向和程度的度量,统计数据的非对称特征

三、单变量数据探索常规方法

五位数概括法:最小值,最大值,中位数,第一四分位数,第三四分位数

单分类变量探索:频数

四、双变量探索

皮尔逊相关系数:计算两个数值之间的线性相关关系,非线性关系皮尔逊相关系数为0

斯皮尔曼相关系数:可以处理非线性数据,也可以处理非线性数据,缺点:处理线性相关系数没有皮尔逊相关系统好,准确率没有皮尔逊相关系数高,优点:可以处理非线性相关系数,对异常值不敏感

肯德尔相关系数:处理分类数据

五、异常检测

切比雪夫定理:(5sigma法)

  • 在任意一个数据集中
  • 所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
  • 所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
  • 所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内

经验法则:(3sigma法)

  • 当该数据集符合正态分布
  • 那么有68.3%的数据位于平均数1个标准差范围内。
  • 那么有95.5%的数据位于平均数2个标准差范围内。
  • 那么有99.7%的数据位于平均数3个标准差范围内。

异常值处理:

  • 删除含有异常值的记录
  • 用中位数替代
  • 用前后两个观测值的平均值修正

若有收获,就点个赞吧

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值