数据预处理技术

数据预处理技术
数据清理:空缺值处理、格式标准化、异常数据清除、错误纠正、重复数据的清除
数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。
数据变换:平滑、聚集、规范化、最小 最大规范化等
数据归约:维归(删除不相关的属性(维))、数据压缩(PCA,LDA,SVD、小波变换)、数值归约(回归和对数线形模型、线形回归、对数线形模型、直方图)
数据离散化和概念分层

1、数据清理:格式标准化、异常数据清除、错误纠正、重复数据的清除
通过填写空缺值,平滑噪声数据,识别删除孤立点,并解决不一致来清理数据,主要是达到如下目标:
(1)数据集压缩处理,主要策略:
数据聚集、维规约、数据压缩、数据规约

(2)空缺值处理,主要策略:
1)忽略元组、人工填写空缺值、使用固定值
2)平均值(中位数等)、各种插值处理(牛顿插值、Lagrange插值等)
3)使用一些分类方法如KNN等。

(3)噪声数据处理,主要策略:
数据平滑技术:
1)分箱处理
箱的深度:表示不同的箱里有相同个数的数据。
箱的宽度:每个箱值的取值区间是个常数。
2)平滑方法:
按箱平均值平滑、
按箱中值平滑、
按箱边界值平滑
3)聚类技术:
每个簇中的数据用其中心值代替、
识别检测并忽略孤立点
4)回归技术:
通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。
线形回归、
多线形回归

2、数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。

3、数据变换:
平滑、聚集、数据概化、规范化、最小 最大规范化、小数定标规范化、属性构造:由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解

4、数据归约:
(1)、维归约
删除不相关的属性(维)来减少数据量。
找出最小属性集合,使得数据类的概率分布尽可能地接近使用所有属性的原分布,一般可以通过贪心算法,逐步向前选择,逐步后向删除,向前选择和后向删除相结合,判定树归纳
(2)、数据压缩
主成分分析PCA,LDA,SVD
小波变换:将数据向量D转换成为数值上不同的小波系数的向量D’,对D’进行剪裁,保留小波系数最强的部分

(3)、数值归约
回归和对数线形模型、线形回归、对数线形模型、直方图、等宽、等深、V-最优、maxDiff、聚类、多维索引树 : 对于给定的数据集合,索引树动态的划分多维空间。

5、离散化和概念分层
离散化技术用来减少给定连续属性的个数,这个过程通常是递归的,而且大量时间花在排序上。
对于给定的数值属性,概念分层定义了该属性的一个离散化的值。
数值数据离散化和概念分层生成方法有:分箱、直方图分析

 

转载于:https://www.cnblogs.com/Hailong-Said/p/4918547.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值