数据挖掘

数据预处理主要任务

数据清理(data cleaning)

通过填写缺失的值,光滑噪声数据,识别或删除离群点,纠正数据中得不一致。

缺失值
  • 忽略元组
  • 人工填写缺失值
  • 使用一个全局常量填充缺失值
  • 使用属性的中心度量(如均值或中位数)填充缺失值
  • 使用与给定元组属同一类的所有样本的属性均值或中位数
  • 使用最可能得值填充缺失值
噪声

噪声是被测量的变量的随机误差或方差。

数据集成(data integration)

数据归约(data reduction)

数据归约策略分为:维归约和数值归约

维归约:使用数据编码方案,以便得到原始数据的简化或压缩
数值归约:使用参数模型(eg:回归和对数线性模型)或非参数模型(eg:直方图,聚类,抽样或数据聚集)
数据变换(data transformation)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值