数据挖掘入门(一)基本理论

(一)数据质量分析
在数据挖掘的过程中,数据的预处理过程往往是十分重要的一环,而数据质量分析是数据预处理的前提,也是数据挖掘的基础。数据挖掘的过程要建立在数据可靠的基础之上。常见的“脏数据”有

  • 缺失值
    概念:记录的缺失或者是记录中某个字段的缺失
    原因:数据无法获取;信息在统计时被遗漏等
    影响:增加数据挖掘过程中的不确定性、不可靠输出
    处理:可采用填补(均值,众数,机器学习等方法)、删除等

  • 异常值
    概念:录入错误以及含有不合理的数据,其数据明显偏离正常值,异常值也称“离群点”
    原因:数据统计过程中的错误统计等
    影响:降低数据挖掘的质量
    处理:采用离群点检测算法来检测离群点

  • 不一致值
    概念: 不同数据源之间肯存在的相关字段,数据口径不一致的现象
    原因:数据采集失误;数据建表不一致,数据关联形式不一致等
    影响:增加了数据实验的困难度,使得数据挖掘的结果偏离

(二)数据统计量
统计量是统计理论中用来对数据进行分析、检验的变量。通过统计量可以借助样本数据区推断总体的特征。假设x1,x2,…,xn是从总体X中抽取容量为n的一个样本,如果由此样本构造一个函数F(x1,x2,…,xn),称这个函数为一个统计量。
常用统计量

  • 均值、方差、偏度、峰度
  • 最小值、中位数、众数、最大值
  • 卡方统计量

(三)相关性分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值