数据挖掘-数据清理-噪声数据

最新推荐文章于 2023-07-21 17:38:53 发布

嘣嘣嚓

最新推荐文章于 2023-07-21 17:38:53 发布

阅读量1k

点赞数

文章标签：数据挖掘机器学习聚类人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38304392/article/details/125304016

版权

数据清理-噪声数据

数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

噪声数据

噪声(noise)是被测量的变量的随机误差或方差。光滑数据，去除噪声方法如下。

1.分箱(binning)

分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱中。由于分箱方法考察近邻的值，因此它进行局部光滑。
对于用箱均值光滑，箱中每一个值都被替换为箱中的均值。
用箱中位数光滑，此时，箱中的每一个值都被替换为该箱的中位数。
对于用箱边界光滑，给定箱中的最大和最小值同样被视为箱边界，而箱中的每一个值都被替换为最近的边界值。
一般而言，宽度越大，光滑效果越明显。箱也可以是等宽的，其中每个箱值的区间范围是常量。分箱也可以作为一种离散化技术使用。

2.回归(regression)

也可以用一个函数拟合数据来光滑数据，这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的最佳直线，使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充，其中涉及的属性多于两个，并且数据拟合到一个多维曲面。

3.离群点分析(outlier analysis)

可以通过如聚类来检测离群点。聚类将类似的值组织成群或簇。直观地，落在簇集合之外的值被视为离群点。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-数据清理-噪声数据

数据清理-噪声数据数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。噪声数据噪声(noise)是被测量的变量的随机误差或方差。光滑数据，去除噪声方法如下。1.分箱(binning)分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱中。由于分箱方法考察近邻的值，因此它进行局部光滑。对于用箱均值光滑，箱中每一个值都被替换为箱中的均...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。