Datawhale X 李宏毅苹果书 AI夏令营第五期

最新推荐文章于 2024-09-05 09:39:15 发布

空口也只是白

最新推荐文章于 2024-09-05 09:39:15 发布

阅读量431

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/canfengly/article/details/141831984

版权

为什么需要数据预处理？

数据预处理是数据挖掘中最为艰巨的任务，

真实的数据有噪声、不完整、数据不一致、冗余、其它(数据类型转换、不均衡数据)。

数据预处理的主要任务？

① 数据清理：填写缺失的值，光滑噪声数据，识别、删除离群点，解决不一致性

② 数据集成：集成多个数据库或文件

③ 数据归约：维规约、数量规约

④ 数据变换和离散化：数据类型转换、标准化

数据清洗

无关数据、冗余属性、缺失数据、异常数据

缺失数据处理和填补方法

忽略、手动填补、模型填补

异常数据：噪声&异常值(测量变量中的随机错误(Noise)或偏差(Outlier)) 如何平滑异常值？

分箱、回归、聚类

类型转换

属性类型

连续型、离散型、序数型、标称型、字符串型等

离散化

离散化是将连续属性转换为有序属性的过程

离散化主要是决定选择多少个分割点以及确定分割点的位置

根据是否使用类信息，离散化方法可分为

无监督离散化：等宽离散化、等频率离散化、 k-均值离散化

有监督离散化

采样

下采样、上采样：相邻点之间的区域随机生成，优点像插值。

边缘采样：数据集非常大，边缘点最有价值；可以节省大量计算资源。

什么是不平衡数据集？

不同类别中样本数比率不平衡，但这些类别中的样本量都是足够多的；存在某一类或多个类样本量较少(这种情况只能尽量补充该类的样本)

不平衡数据集会产生什么弊端？

会使结果不准确，很高的准确率可能没有意义。

如何规避不平衡数据集的弊端？

可以通过抽样来调整类的分布，也可以定义新的准确率的评价标注

数据规范化(标准化)

有明确上下界： Min-max 标准化

最大-最小是有明确的上下界的

无上下界： Z-score标准化

有些数据是没有明显的上下界的，数据服从高斯分布，是可以无限延伸的

特征选择与提取

如何判断属性的好坏呢？

定性

类别柱状图(离散型属性)、类别分布图(连续型属性)

定量

熵：信息量的数学期望，在信息论中衡量一个系统的不确定性。 (越小越好)

信息增益：当知道额外属性时，对整个系统的不确定性降低了多少。 (越大越好)

思考：连续型属性如何求熵、信息增益呢？

特征子集选择的方法有那些？

① 穷举

② 分支定界

③ 贪婪算法：最优的K个单独的属性、顺序正向选择、顺序逆向选择

④ 优化算法：模拟退火、遗传算法

两个具有代表性的特征提取方法(降维方法)：

无监督的PCA

主要思想？

PCA旨在找到数据中的主成分，并利用这些主成分表征原始数据，从而达到降维的目的。

如何计算？

两个具有代表性的特征提取方法(降维方法)：

无监督的PCA

PCA的优点

① 仅仅需要以方差衡量信息量，不受数据集以外的因素影响

② 各主成分之间正交，可消除原始数据成分间的相互影响的因素

③ 计算方法简单，主要运算是特征值分解，易于实现

PCA的缺点

① 主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强

② 方差小的非主成分也可能含有对样本差异的重要信息，因此降维丢弃可能对后续数据处理有影响

③ PCA属于有损压缩

两个具有代表性的特征提取方法(降维方法)：

有监督的LDA

主要思想？

线性判别分析是一种基于有监督学习的降维方式, 将数据集在低维度的空间进行投影，要使得投影后的同类别的数据点间的距离尽可能的靠近，而不同类别间的数据点的距离尽可能的远

如何计算？

两个具有代表性的特征提取方法(降维方法)：

有监督的LDA

LDA的优点

① 在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识

② LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优

LDA的缺点

① LDA不适合对非高斯分布样本进行降维， PCA也有这个问题

② LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。

③ LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好

④ LDA可能过度拟合数据

两个具有代表性的特征提取方法(降维方法)：

无监督的PCA与有监督的LDA

相同点：

① PCA和LDA都是经典的降维算法；

② PCA和LDA都假设数据是符合高斯分布的；

③ PCA和LDA都利用了矩阵特征分解的思想。

不同点：

① PCA是无监督(训练样本无标签)的， LDA是有监督(训练样本有标签)的；

② PCA是去掉原始数据冗余的维度， LDA是选择一个最佳的投影方向，使得投影后相同类别的数据分布紧凑，不同类别的数据尽量相互远离。

③ LDA最多可以降到k-1维(k是训练样本的类别数量， k-1是因为最后一维的均值可以由前面的k-1维的均值表示)；

④ LDA可能会过拟合数据。

空口也只是白

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营第五期

线性判别分析是一种基于有监督学习的降维方式, 将数据集在低维度的空间进行投影，要使得投影后的同类别的数据点间的距离尽可能的靠近，而不同类别间的数据点的距离尽可能的远。② PCA是去掉原始数据冗余的维度， LDA是选择一个最佳的投影方向，使得投影后相同类别的数据分布紧凑，不同类别的数据尽量相互远离。③ LDA最多可以降到k-1维(k是训练样本的类别数量， k-1是因为最后一维的均值可以由前面的k-1维的均值表示)；有些数据是没有明显的上下界的，数据服从高斯分布，是可以无限延伸的。
复制链接

扫一扫