寒假学习--数据建模预备知识

数据建模01-数据预处理

缺失值处理

缺失值处理

异常值处理

  • 样本中明显和其他数据差异较大的数据,例如与一群人身高相差较大(3m1)。
  • 正态分布3Σ原则
    • 数值分布在(μ-3Σ,μ+3Σ)中的概率,其中μ为平均值,Σ为标准差。
    • 求解步骤:1.计算μ和Σ。2.看数值是否在分部内部,若不在则为异常值。
    • 适用题目:总体符合正态分布,如人口数据、测量误差、生产加工质量、考试成绩等。
    • 不适用题目:总体符合其他分布、例如公交车排队属于泊松分布。
  • 画箱型图
    • 适用性:普遍适用
    • 求解步骤:
      1.将数据从小到大排序,用Q1取25%处的数值,Q3取75%处的数值。
      2.四分位距IQR=Q3-Q1,与正态分布类似,看其值是否落入分布区间,若在区间之外则为异常值。
      3.一般取区间[Q1-1.5IQR,Q3+1.5IQR]内为正产值。
    • 找到异常后,预处理缺失值的方法相同。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值