mysql删除异常值_数据预处理—剔除异常值,平滑处理,标准化(归一化)

数据预处理主要包括数据清理、集成、变换、归约等步骤。在数据清理中,处理空缺值和噪声数据是关键,如使用平均值填充空缺值、平滑噪声数据。数据集成涉及数据源的整合和冲突解决。数据变换包括数据平滑、聚集和规范化,以减少冗余和提高数据质量。数据归约则通过数据立方体、维归约、数据压缩和数值归约等方式降低数据复杂性,离散化和概念分层有助于数据的简化和理解。
摘要由CSDN通过智能技术生成

65ea17c1651c1ef7dd7f364091cc48a8.png

数据预处理的主要任务如下:

(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性

(2)数据集成:集成多个数据库,数据立方体,文件

(3)数据变换:规范化(消除冗余属性)和聚集(数据汇总),将数据从一个较大的子空间投影到一个较小的子空间

(4)数据归约:得到数据集的压缩表示,量小,但可以得到相近或相同的结果

(5)数据离散化:数据规约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据比较重要。

1.数据清洗

(1)处理空缺值:

A, 忽略元组

B.人工填写空缺值

C.使用一个全局变量填充空缺值

D.使用属性的平均值填充空缺值

E.使用与给定元组属同一类的所有样本的平均值

F.使用最可能的值填充空缺值,使用像Bayesian公式或判定树这样的基于推理的方法

(2)处理噪声数据

噪声:一个测量变量中的随机错误或偏差

A.分箱(binning)(等深或等宽分箱)

首先排序数据,并将他们分到等深的箱中

然后可以按箱的平均值平滑,按箱中值平滑,按箱的边界值平滑

B.聚类:检测并且去除孤立点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值