数据分析与挖掘学习历程3

异常值分析

1.简单统计量分析

先做描述性统计,分析离群点

2.3σ原则

如果数据服从正态分布,则距离平均值3之外的值出现概率为P<=0.003,为极小概率事件

箱型图分析

异常值通常被定义为Ql-1.5IQR或大于Qu+1.5IQR的值
Ql称为下四分位数,表示全部观察值中有四分之一数据比他小
Qu称为上四分位数,表示全部观察值中有四分之一数据比他大
IQR称为四分位数间距,是Qu-Ql,为样本的一半

一致性分析

数据不一致性是指数据的矛盾性与不相容性,类似于一个人有两个身份证号码

数据特征分析

  • 分布分析

    • 定量数据分布分析
      • 求极差
      • 决定组距与组数
      • 决定分点
      • 列出频率分布表
      • 绘制频率分布直方图
      • 要遵循的主要原则如下:
        • 各组之间必须互斥
        • 各组之和包含所有数据
        • 各组组宽最好相等
    • 定性数据分析
      画扇形图和条形图分析
  • 对比分析

    • 绝对数比较
    • 相对数比较
      • 结构相对数,部分数值/全部数值,求比重
      • 比例相对数,同一总体内不同部分相互比较
      • 比较相对数,将同一时期两个性质相同的指标数值进行比对,说明同类现象在不同空间条件下的数量对比关系
      • 强度相对数,将两个性质不同但有一定联系的总量指标对比,说明现象的强度,密度和普遍程度
      • 计划完成相对数
      • 动态相对数,同一现象不同时期的对比
  • 周期性分析
    观察数据是否有周期性变化

  • 贡献度分析
    原理:帕累托法则,二八定律,通过绘图观察

  • 统计量分析

    • 集中趋势度量
      • 均值:
        在这里插入图片描述
      • 中位数:
        在这里插入图片描述
      • 众数:样本中出现次数最多的值
  • 离中趋势度量

    • 极差:
      极差 = 极大值 - 极小值
    • 标准差:
      在这里插入图片描述
    • 变异系数:
      在这里插入图片描述
    • 四分位数间距:
      在这里插入图片描述
  • 相关性分析

    • 直接绘制散点图
      在这里插入图片描述
    • 绘制散点图矩阵
      在这里插入图片描述
  • 计算相关性系数
    • Pearson相关系数
      在这里插入图片描述
    • Spearman秩相关系数
      在这里插入图片描述
      在这里插入图片描述
  • 判定系数为相关系数的平方,用r^2表示:用来衡量回归方程对y的解释程度 r^2越接近1则x与y的相关性越强,越接近0则相关性越弱
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值