NEFU数据科学导论(三)数据预处理

一、总过程

 二、数据清洗·

2.1什么是数据清洗?
●删除原始数据集中的无关数据、重复数据、平滑噪声数据
●筛选掉与主题无关的数据
●处理缺失值、异常值等

2.2.1缺失值处理方法

2.2.2数据插补详解

 2.3.1异常值处理方法

三、数据集成 

3.1什么是数据集成?
将多个数据源合并
存放在一个一 致的数据存储 (如数据仓库)中

3.2处理方法

实体识别

数据冗余·

3.3.1实体识别

 

3.3.2数据冗余

四、数据规约

 4.1什么是数据规约
复杂的数据分析和挖掘时间很久产生更小的数据集
同时保持原数据完整性在规约后的数据集上进行分析和挖掘将更有效率

 4.2形式

属性规约   数值规约

4.2.1 属性规约

 

 4.2.2 数值规约

 合并属性:将一些旧数据合并为新属性

逐步向前选择:   从一个空属性集开始r每次从原来属性集合中选择一个当前最优的属性添加到当前属性子集中。直到无法选择出最优属性或满足一定调值约束为止。
 

 

逐步向后删除:
从一个全属性集开始,每次从当前属性子集中选择一个当前最差的属性并将其从当前属性子集中消去。直到无法选择出最差属性为止或满足一定和值约束为止。
五、数据变换

 

5.1什么是数据交换

 5.2.1简单函数交换

5.2.2规范化

 

 

5.2.3属性构造

 

5.2.4连续属性离散化

 

 

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

烟雨平生9527

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值