西瓜书/南瓜书第十章降维与度量学习笔记

leiuser

已于 2023-03-18 22:06:29 修改

阅读量126

点赞数

文章标签：机器学习 Powered by 金山文档

于 2023-03-18 22:06:06 首次发布

本文链接：https://blog.csdn.net/leiuser/article/details/129641959

版权

10.1 k近邻学习

KNN：K-nearest neighbor

选择K值：K值越高决策边界越平滑，但也会因包括了噪声样本而导致误分类

计算距离：计算测试样本点和训练样本点之间的距离

选择K近邻：对测试样本点找到以上计算距离最小的K个近邻

结果：

分类问题：用“投票法”，选择K近邻样本中出现最多的类别标记做为预测结果

回归问题：用“平均法”，将K近邻样本平均值做为预测结果

错误率：

只有在样本采样密度足够大时，KNN错误率不超过贝叶斯最优分类器的两倍

通常衡量KNN错误率使用F1 score，MSE等等

10.2 低维嵌入

维数灾难 curse of dimensionality:

问题：高维度样本空间，样本稀疏，样本点之间距离提高，很难确定样本直接的模型和关系，计算复杂度增加，模型复杂度增加，准确值下降，可视化下降。

解决方法：降维，特征选择，规范化

降维 dimension reduction:

可实行降维原因：高维数据样本中，与学习任务密切相关的也许仅是某个低维分布，即高维空间的一个低维嵌入

通过某种数学变换将原始高维属性空间转变为一个低维子空间，在这个子空间中样本密度大幅度提高，距离计算也更为容易。

10.3 主成分分析

Principal Component Analysis, PCA, 最常用的线性降维技术

降维最理想的表达：

最近重构性：样本点到超平面距离足够近

最大可分性：样本点到超平面投影能尽可能分开

算法

标准化数据：将每个变量减去其均值并除以其标准差，确保所有变量在分析中具有相同的重要性和尺度。

计算协方差矩阵：显示数据中所有变量对之间的关系。

计算特征向量和特征值：特征向量表示数据中方差最大的方向，特征值表示每个特征向量解释的方差大小。

对特征向量进行排名：按照对应特征值的大小将特征向量进行降序排列，并选择前k个特征向量作为主成分。选择k的数量取决于希望在降维后的数据中保留的方差量。常见的经验法则是保留足够多的主成分，以解释总方差的70％至90％。

投影数据：将标准化数据乘以所选特征向量的转置，投影到选择的主成分上，以获得降维后的数据集。

10.4 核化线性降维

Kernelized PCA, KPCA, 基于核技巧对线性降维方法进行核化，用来进行非线性降维

选择核函数：例如线性核、多项式核或高斯核。核函数是用于将数据映射到高维空间的函数，它可以将非线性数据集映射到线性可分的空间。

计算核矩阵：该矩阵显示数据集中每个样本对之间的核函数值。核矩阵是一个对称的、半正定的矩阵。

计算中心化核矩阵：对核矩阵进行中心化操作，即在每个元素上减去该行和该列的平均值，并添加总体平均值。

计算特征向量和特征值：与PCA一样，特征向量表示数据中方差最大的方向，特征值表示每个特征向量解释的方差大小。

对特征向量进行排名：按照对应特征值的大小将特征向量进行降序排列，并选择前k个特征向量作为主成分。选择k的数量取决于希望在降维后的数据中保留的方差量。

投影数据：将中心化核矩阵与所选特征向量的转置相乘，将原始数据集投影到选择的主成分上，以获得降维后的数据集。

10.5 流形学习

Manifold Learning，数据可能存在于一个潜在的低维流形上，但是在高维空间中，这个流形可能被嵌入到一个更高维的空间中。 Manifold Learning的目标是通过在高维空间中找到这个低维流形的拓扑结构和几何形状来提取数据的本质特征。

10.5.1 等度量映射

Isometric Mapping，简称Isomap

基本思想：利用数据点之间的测地距离（geodesic distance）来构建数据之间的近邻连接图，来描述数据的流形结构，并将其映射到低维空间中。

算法：

计算数据点之间的测地距离：对每个点基于欧氏距离找出其近邻点

构建邻接关系图：

K近邻：对于每个数据点，选择最近的k个邻居作为其邻居

ϵ近邻：指定距离阈值ϵ，距离小于ϵ的点被认为是近邻点

计算图的最短路径：利用Dijkstra算法或Floyd算法计算每两个数据点之间的最短路径。

计算数据点之间的测地距离：将图上的最短路径距离作为数据点之间的测地距离。

映射到低维空间：通过多维缩放（MDS）等方法将数据点映射到低维空间中，保持原始数据之间的距离不变。

10.5.2 局部线性嵌入

Locally Linear Embedding, LLE

基本思想：保持领域内样本的线性关系，即高维空间中的样本重构关系在低维空间中得以保持

算法：

构造邻域图：对于每个数据点，找到它的k个最近邻，连接起来形成一个本地邻域图。

计算局部权重：对于每个数据点，计算一组权重，描述最佳重构该数据点的邻居的线性组合。这是通过最小化数据点与其重构点之间的平方重构误差来完成的。

计算嵌入：使用这些权重计算数据点的低维嵌入，同时保持数据点之间的局部关系。

10.6 度量学习

Metric learning

基本思想：每个空间对应了样本属性上定义的一个距离度量，寻找合适的空间就是在寻找一个合适的距离度量，那么可以直接对距离度量进行学习。

leiuser

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书/南瓜书第十章降维与度量学习笔记

基本思想：利用数据点之间的测地距离（geodesic distance）来构建数据之间的近邻连接图，来描述数据的流形结构，并将其映射到低维空间中。问题：高维度样本空间，样本稀疏，样本点之间距离提高，很难确定样本直接的模型和关系，计算复杂度增加，模型复杂度增加，准确值下降，可视化下降。投影数据：将中心化核矩阵与所选特征向量的转置相乘，将原始数据集投影到选择的主成分上，以获得降维后的数据集。投影数据：将标准化数据乘以所选特征向量的转置，投影到选择的主成分上，以获得降维后的数据集。
复制链接

扫一扫