数据挖掘初学Day03

1.幸存者偏差

2.数据预处理 

part A

途径:(1)填写缺失值(2)光滑噪声数据(3)删除离群点(4)解决属性不一致

具体:(1)处理缺失值    ignore;数据补齐;不处理

           (2)离群点 (outlier):是一个数据对象,它显著不同于其他数据对象。如信用卡欺诈                      

离群点类型:

全局离群点
给定数据集中,如果它显著偏离数据集中的其余对象,则成为全局离群点。

情景离群点
在给定数据集中,如果关于对象的特定情境,它显著偏离其他对象,则称为情景离群点。

集体离群点
在给定数据集中,如果这些对象作为整体显著偏离整个数据集,则数据集的这个子集为集体离群点。
原文:https://blog.csdn.net/littlely_ll/article/details/68486537 
离群点检测算法 Local Outlier Factor(LOF)

part B数据集成和转换

数据集成是将不同来源的数据整合并一致存储起来。

数据冗余: 不同来源的数据,包含很多相同的值。可通过对数据进行相关性分析。皮尔森相关系数和卡方检验。

数据转换问题:平滑、聚合、泛化、规范化、属性和特征的重构等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值