1.数据清洗
主要删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值。
删除
无关数据 重复数据
筛选
筛选掉与挖掘主题无关的数据
处理
对象:缺失值 异常值
缺失值处理方法
- 删除记录(如删除小部分,可达到目标最有效)
- 数据插补
插值的数选择均:值/中位数/众数,固定值,最近临插补, 回归方法
插值法:
插值前,需要进行异常值检验异常值和空值(设置其位None再进行插值)
异常值处理最好是填补
(1)拉格朗日插值法
(2)牛顿插值法(与拉格朗日相比,具有承袭性和易于变动节点的特点)
(3)Hermite插值
(4)分段插值
(5)样条插值法
- 不处理
2.数据集成
将多个数据源合并存放在一个一致的数据存储(数据仓库)中的过程。
考虑问题:实体识别问题、属性冗余问题
将源数据在最底层转换、提炼和集成
- 实体识别
&