数据预处理
数据清洗
去掉数据中的噪声,纠正不一致。
数据集成
将多个数据源合并成一致的数据存储,构成一个完整的数据集。
数据归约(消减)
通过聚集、删除冗余属性或聚类等方法来压缩数据。
数据变换(转换)
将一种格式的数据转换为另一种格式的数据(如规范化)。
数据预处理具体方式
数据变换:简单函数变换
左偏的数据可以通过取指数的方式进行变换,右偏的数据可以通过取对数的方式进行变换。
数据变换:归一化
用于机器学习(求梯度或导数)时,数据(数量级)差异大,导致求解慢或无法收敛,需要进行归一化处理,使数据处于同一数量级。
数据清洗:缺失值处理
方法可分为三类:删除记录、数据插补和不处理
删除记录
数据量大,不缺少数据时,可以直接删除;
不处理
将缺失值的数据作为数据的特殊类进行特殊处理。
最近临插补
欧几里得距离
回归方法(不建议使用)
多元线性回归方程
插值法(拉格朗日插值法、牛顿插值法)
拉格朗日插值法
牛顿插值法
异常值处理
特征工程
特征选择
主成分分析(数据降维)
本文仅是我个人学习记录笔记
来源——B站UP主“数学建模老哥”,《保奖班09:数据预处理专项讲解》
https://www.bilibili.com/video/BV1nV4y1o74q/?share_source=copy_web&vd_source=454dfddb4944fd6b677fc478b074ceed