data mining:数据预处理

最新推荐文章于 2018-02-18 20:31:12 发布

猪猪奋斗记

最新推荐文章于 2018-02-18 20:31:12 发布

阅读量1.6k

点赞数 1

分类专栏： Machine Learning 文章标签：数据挖掘数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bigbigship/article/details/50953985

版权

Machine Learning 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

引言

在进行数据挖掘的时候，我们拿到都是从现实社会中得到的原始数据，它是充满噪声的，维度也可能很高，也可能重复，因此在正式的进行数据挖掘之前我们需要对数据进行预处理。
数据预处理大概包括这几个方面：

数据清洗
数据集成
数据变换
数据规约

数据清洗

数据清洗处理处理这几个问题

数据空缺
噪声处理
不一致数据

数值空缺

清楚空缺值记录(尤其是类别空缺的时候)
取平均值(最好去同类别的平均值)
设定一个全局变量unknown，将空缺值设为这个
通过回归等方法对空缺值进行预测

噪声处理

分箱：参考相邻值平滑
1. 平滑
  - 均值替换
  - 中值替换
  - 边界值（最大/小值）替换
2. 分箱方法
  - 等深分箱：排序后，每个箱子装相同数量的数据
  - 等宽分箱：排序后，每个箱子的数据的宽度相同
聚类：排除异常值
计算机与人工检测结合：计算机检测出来后再人工进行识别
回归

不一致的数据

解决方法：

人工更正
知识工作工具
数据字典

数据集成

数据集成：将多文件或者多数据库中的异构数据进行合并，然后存放在一个一致的数据存储中。
考虑的问题：

模式匹配
数据冗余
数据值冲突

数据变换

数据变换包括这几个方面

平滑
聚集
数据概化
规范化

数据规范化

最大-最小规范化

v' = v - m i n A m a x A - m i n A * (n e w m a x - n e w m i n) + n e w m i n

$v^{'} =\frac{v-min_A}{max_A-min_A}*(new_{max}-new_{min})+new_{min}$

$z-score$ 规范化(零均值规范化)

v' = v - m e a n s t a r d d e v

$v^{'} =\frac{v-mean}{stard_{dev}}$

starddev $stard_{dev}$ 表示标准差，

mean $mean$ 表示平均值

小数定标规范化

v' = v 10 j

$v^{'} =\frac{v}{10^j}$

j $j$ 是使

max(|v′|)<1 $max(|v^{'}|)<1$ 的最小整数

数据规约

数据归约：目的是为了获得比原始数据小的多的，但不破坏数据完整性的挖掘数据集，该数据集可以得到与原始数据相同的挖掘结果。(提高数据挖掘的效率)
方法：

数据立方体聚集：把聚集的方法用于数据立方体。
维归约：检测并删除不相关、弱相关或冗余属性。
数据压缩：选择正确的编码压缩数据集。
数值压缩：用较小的数据表示数据，或采用较短的数据单位，或者用数据模型代表数据。
离散化和概念分层生成：使连续的数据离散化，用确定的有限个区段值代替原始值；概念分层是指用较高层次的概念替换低层次的概念，以此来减少取值个数。
属性子集选择的基本方法包括以下几种（启发式算法）：
1. 逐步向前选择
2. 逐步向后删除
3. 向前选择和向后删除结合
4. 判定树归纳
5. 基于统计分析的归约

猪猪奋斗记

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。