Datawhale X 李宏毅苹果书 AI夏令营第五期

为什么需要数据预处理?

数据预处理是数据挖掘中最为艰巨的任务,

真实的数据有噪声、不完整、数据不一致、冗余、其它(数据类型转换、不均衡数 据)。

数据预处理的主要任务?

① 数据清理:填写缺失的值,光滑噪声数据,识别、删除离群点,解决不一致性

② 数据集成:集成多个数据库或文件

③ 数据归约:维规约、数量规约

④ 数据变换和离散化:数据类型转换、标准化

数据清洗

无关数据、冗余属性、缺失数据、异常数据

缺失数据处理和填补方法

忽略、手动填补、模型填补

异常数据:噪声&异常值(测量变量中的随机错误(Noise)或偏差(Outlier)) 如何平滑异常值?

分箱、回归、聚类

类型转换

属性类型

连续型、离散型、序数型、标称型、字符串型等

离散化

离散化是将连续属性转换为有序属性的过程

离散化主要是决定选择多少个分割点以及确定分割点的位置

根据是否使用类信息,离散化方法可分为

无监督离散化:等宽离散化、等频率离散化、  k-均值离散化

有监督离散化

采样

下采样、上采样:相邻点之间的区域随机生成,优点像插值。

边缘采样:数据集非常大,边缘点最有价值;可以节省大量计算资源。

什么是不平衡数据集?

不同类别中样本数比率不平衡,但这些类别中的样本量都是足够多的; 存在某一类或多个类样本量较少(这种情况只能尽量补充该类的样本)

不平衡数据集会产生什么弊端?

会使结果不准确,很高的准确率可能没有意义。

如何规避不平衡数据集的弊端?

可以通过抽样来调整类的分布,也可以定义新的准确率的评价标注

数据规范化(标准化)

有明确上下界:  Min-max 标准化

最大-最小是有明确的上下界的

无上下界:  Z-score标准化

有些数据是没有明显的上下界的,数据服从高斯分布,是可以无限延伸的

特征选择与提取

如何判断属性的好坏呢?

定性

类别柱状图(离散型属性)、类别分布图(连续型属性)

定量

熵:信息量的数学期望,在信息论中衡量一个系统的不确定性。  (越小越好)

信息增益:当知道额外属性时,对整个系统的不确定性降低了多少。  (越大越好)

思考:  连续型属性如何求熵、信息增益呢?

特征子集选择的方法有那些?

①      穷举

②      分支定界

③      贪婪算法:最优的K个单独的属性、顺序正向选择、顺序逆向选择

④      优化算法:模拟退火、遗传算法

两个具有代表性的特征提取方法(降维方法):

无监督的PCA

主要思想?

PCA旨在找到数据中的主成分,并利用这些主成分表征原始数据,从而达到降维的 目的。

如何计算?

两个具有代表性的特征提取方法(降维方法):

无监督的PCA

PCA的优点

① 仅仅需要以方差衡量信息量,不受数据集以外的因素影响

② 各主成分之间正交,可消除原始数据成分间的相互影响的因素

③ 计算方法简单,主要运算是特征值分解,易于实现

PCA的缺点

① 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强

② 方差小的非主成分也可能含有对样本差异的重要信息,因此降维丢弃可能对后 续数据处理有影响

③  PCA属于有损压缩

两个具有代表性的特征提取方法(降维方法):

有监督的LDA

主要思想?

线性判别分析是一种基于有监督学习的降维方式, 将数据集在低维度的空间进行投 影,要使得投影后的同类别的数据点间的距离尽可能的靠近,而不同类别间的数据 点的距离尽可能的远

如何计算?

两个具有代表性的特征提取方法(降维方法):

有监督的LDA

LDA的优点

① 在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无 法使用类别先验知识

②  LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优

LDA的缺点

①  LDA不适合对非高斯分布样本进行降维,  PCA也有这个问题

②  LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使 用LDA。

③  LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好

④  LDA可能过度拟合数据

两个具有代表性的特征提取方法(降维方法):

无监督的PCA与有监督的LDA

相同点:

①  PCA和LDA都是经典的降维算法;

②  PCA和LDA都假设数据是符合高斯分布的;

③  PCA和LDA都利用了矩阵特征分解的思想。

不同点:

①  PCA是无监督(训练样本无标签)的,  LDA是有监督(训练样本有标签)的;

②  PCA是去掉原始数据冗余的维度,  LDA是选择一个最佳的投影方向,使得投影 后相同类别的数据分布紧凑,不同类别的数据尽量相互远离。

③  LDA最多可以降到k-1维(k是训练样本的类别数量,  k-1是因为最后一维的均值 可以由前面的k-1维的均值表示);

④  LDA可能会过拟合数据。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值