数据预处理

一、描述性数据汇总

对于许多数据预处理任务,我们希望知道关于数据的中心趋势和离中趋势特征,中心趋势度量包括均值(mean)、众数(mode)、中位数(median)和中列数(midrange),而离中心趋势度量包括四分位数(quartiles)、四分位数极差(interquariles range,IQR)和方差(variance)。

1.度量数据的中心趋势

分布式度量、代数度量、加权算术均值或加权平均、截断均值、整体度量、众数、中列数。

2.度量数据的离散程度

1.极差、四分位数、离群点和群图

2.方差和标准差

3.基本描述数据汇总的图形显示

直方图、分位数图、分位数-分位数图或q-q图、散步图、散步图矩阵、loess曲线

二、数据清洗

1.缺失值

忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、使用属性的均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值

2.噪声数据

分箱、回归、聚类

三、数据集成和变换

数据集成合并多个数据源中的数据,存放在一个一致的数据存储(如数据仓库)中。这些数据可能包括多个数据库、数据立方体或一般文件

数据变换将数据转换或统一成适合挖掘的形式

光滑、聚集、数据泛化、规范化、数据构造(或特征构造)

四、数据规约

数据立方体聚集、属性子集选择、维度规约、数值规约、离散化和概念分层产生

属性子集选择

逐步向前选择、逐步向后删除、向前选择和向后删除的结合、决策树归纳

维度规约

小波变化和主成分分析

数值规约

回归和对数线性模型、直方图、聚类、抽样

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值