1.幸存者偏差
2.数据预处理
part A
途径:(1)填写缺失值(2)光滑噪声数据(3)删除离群点(4)解决属性不一致
具体:(1)处理缺失值 ignore;数据补齐;不处理
(2)离群点 (outlier):是一个数据对象,它显著不同于其他数据对象。如信用卡欺诈
离群点类型:
全局离群点
给定数据集中,如果它显著偏离数据集中的其余对象,则成为全局离群点。
情景离群点
在给定数据集中,如果关于对象的特定情境,它显著偏离其他对象,则称为情景离群点。
集体离群点
在给定数据集中,如果这些对象作为整体显著偏离整个数据集,则数据集的这个子集为集体离群点。
原文:https://blog.csdn.net/littlely_ll/article/details/68486537
离群点检测算法 Local Outlier Factor(LOF)
part B数据集成和转换
数据集成是将不同来源的数据整合并一致存储起来。
数据冗余: 不同来源的数据,包含很多相同的值。可通过对数据进行相关性分析。皮尔森相关系数和卡方检验。
数据转换问题:平滑、聚合、泛化、规范化、属性和特征的重构等。