数据挖掘复习笔记（二、数据预处理）

最新推荐文章于 2022-12-14 06:45:00 发布

清，纯一色

最新推荐文章于 2022-12-14 06:45:00 发布

阅读量507

点赞数 1

文章标签：人工智能数据库

原文链接：http://www.cnblogs.com/Wyuqing/p/7878404.html

版权

（一）数据对象、属性

数据集由数据对象组成。一个数据对象代表一个实体。属性是一个数据字段，表示数据对象的一个特征。

可以用多种方法组织属性类型：

1.标称属性（相当于枚举类型）、序数属性、数值属性。

2.离散属性、连续属性

（二）数据描述

1.中心趋势度量：均值、中位数、众数、中列数

2.离散趋势度量：方差、标准差、分位数、分位数极差

（三）数据预处理

1.为什么要进行数据预处理

现实世界中数据往往存在以下问题：

不完整的：有感兴趣的属性缺少属性值
含噪声的：包含错误或“孤立点”
不一致的：在命名或编码上存在差异

2.数据预处理包括哪些工作

数据清理。数据清理包括填写缺失值、平滑噪声数据、识别和删除孤立点。

噪声的处理方法：分箱，将数据分箱，对箱中数据用均值、中位数或箱边界进行光滑。回归，用一个函数拟合数据，达到光滑数据的效果。

识别离群点：通过聚类方法把数据划分为簇，落在簇之外的就是离群点。

数据集成。将来自多个数据库的数据集成在一起。
数据变换。对数据进行规范化等。
规范化方法一 ——最小－最大(min-max)规范化

最小－最大规范化保持原有数据之间的联系。如果今后的输入落在A的原始数据值域之外，该方法将面临“越界错误”。

规范化方法二——z-score规范化

也叫标准差标准化，经过处理的数据符合标准正态分布，即均值为0，标准差为1。

当属性f的实际最大和最小值未知，或异常点左右了最小－最大规范化时，该方法是有用的。

规范化方法三——小数定标规范化

小数定标规范化通过移动属性A 的小数点位置进行规范化。
数据规约。对数据进行精简，但仍保持或接近于保持数据的完整性。

数据归约策略

a) 数据立方体聚集

b) 维归约：通过删除不相干的属性或维减少数据量。维规约的方法包括小波变换和主成分分析。

c) 数据压缩：用数据编码或者变换得到原始数据的压缩表示。典型的有主成分分析

d) 数值归约

e) 离散化和概念分层

3.距离与相似性度量

数据之间的相似性度量

（1）常用距离函数:

欧式(Euclidean)距离、曼哈顿(Manhattan)距离、切比雪夫距离等。

(2) 二值属性数据距离度量

二值属性变量(binary variable)只有两种状态:0或1,表示属性的存在与否。一种差异计算方法就是根据二值数据值的计数，计算二值属性的距离。

转载于:https://www.cnblogs.com/Wyuqing/p/7878404.html

清，纯一色

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。