数据建模01-数据预处理
缺失值处理
异常值处理
- 样本中明显和其他数据差异较大的数据,例如与一群人身高相差较大(3m1)。
- 正态分布3Σ原则
- 数值分布在(μ-3Σ,μ+3Σ)中的概率,其中μ为平均值,Σ为标准差。
- 求解步骤:1.计算μ和Σ。2.看数值是否在分部内部,若不在则为异常值。
- 适用题目:总体符合正态分布,如人口数据、测量误差、生产加工质量、考试成绩等。
- 不适用题目:总体符合其他分布、例如公交车排队属于泊松分布。
- 画箱型图
- 适用性:普遍适用
- 求解步骤:
1.将数据从小到大排序,用Q1取25%处的数值,Q3取75%处的数值。
2.四分位距IQR=Q3-Q1,与正态分布类似,看其值是否落入分布区间,若在区间之外则为异常值。
3.一般取区间[Q1-1.5IQR,Q3+1.5IQR]内为正产值。 - 找到异常后,预处理缺失值的方法相同。