数据挖掘入门（一）基本理论

最新推荐文章于 2022-06-14 17:24:44 发布

是小明耶

最新推荐文章于 2022-06-14 17:24:44 发布

阅读量1.3k

点赞数

分类专栏：数据挖掘入门文章标签：数据挖掘大数据数据分析机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41720020/article/details/106245892

版权

数据挖掘入门专栏收录该内容

1 篇文章 0 订阅

订阅专栏

（一）数据质量分析
在数据挖掘的过程中，数据的预处理过程往往是十分重要的一环，而数据质量分析是数据预处理的前提，也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有

缺失值：
概念：记录的缺失或者是记录中某个字段的缺失
原因：数据无法获取；信息在统计时被遗漏等
影响：增加数据挖掘过程中的不确定性、不可靠输出
处理：可采用填补（均值，众数，机器学习等方法）、删除等
异常值：
概念：录入错误以及含有不合理的数据，其数据明显偏离正常值，异常值也称“离群点”
原因：数据统计过程中的错误统计等
影响：降低数据挖掘的质量
处理：采用离群点检测算法来检测离群点
不一致值：
概念：不同数据源之间肯存在的相关字段，数据口径不一致的现象
原因：数据采集失误；数据建表不一致，数据关联形式不一致等
影响：增加了数据实验的困难度，使得数据挖掘的结果偏离

（二）数据统计量
统计量是统计理论中用来对数据进行分析、检验的变量。通过统计量可以借助样本数据区推断总体的特征。假设x1,x2,…,xn是从总体X中抽取容量为n的一个样本，如果由此样本构造一个函数F（x1,x2,…,xn），称这个函数为一个统计量。
常用统计量：

均值、方差、偏度、峰度
最小值、中位数、众数、最大值
卡方统计量

（三）相关性分析

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。