一定要进行数据预处理,即使数据无异常;
数据预处理:数据清洗,数据集成,数据变换和数据规约。
1、数据清洗:去掉数据中的噪声,纠正不一致,
缺失值处理:
2、数据集成:将多个数据源合并,构成一个完整的数据集;
3、数据变换:将一种格式的数据转换为另一种格式的数据,使数据保持完美的正态分布,这样用中位数还是平均数来描述数据不会有太大差别,例如简单的函数变换;
数据变换还可利用归一化:数据数量级差异较大时可以进行归一化,进行机器学习时也需要。
4、数据规约:通过聚集、删除冗余属性或聚类等方法来压缩数据。
统计建模之数据分析
于 2023-04-28 23:19:01 首次发布