数据挖掘-维度降低

dcjszhr

已于 2024-03-12 18:41:34 修改

阅读量22

点赞数

分类专栏：数据挖掘文章标签：数据挖掘人工智能算法

于 2023-10-31 22:10:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dcjszhr/article/details/134137677

版权

数据挖掘专栏收录该内容

7 篇文章 0 订阅

订阅专栏

维度降低

维度降低 — 动机

● 高维度 = 高数量的数据特征

■ $m$ ("质量") — 数据点的数量

■ $V$ ("体积") — 由维度描述的数据空间

$density = \rho =\frac{m}{V}$ ➜ 高维数据迅速变得非常稀疏！

● 许多特征和数据稀疏性的影响

■ 更高的计算成本

■ 对任何需要统计显著性的方法都是问题 ➜ 高风险的过拟合

(“好”的数据点和噪声/异常值看起来越来越无法区分)

■ 掩盖了数据点之间的相似性

(在低维度中相似但在高维度中不相似的点)

维度的诅咒

● 高维度的效应（即，许多特征）

■ 数据点往往永远不会靠得很近

■ 点与点之间的平均距离趋于收敛

● 直观

■ 假设有 $N$ 个数据点均匀分布在一个具有 $d$ 维度的单位立方体内

■ 设 $L$ 为包含数据点的 $k-NN$ 的最小立方体的边长

$L^d\approx \frac{k}{N} \Rightarrow L\approx (\frac{k}{N})^{\frac{1}{d}}$

这个包含 $k-NN$ 的立方体几乎是整个单位立方体！

在1,000个随机数据点和不同数量的维度之间的成对距离分布

维度降低 — 特征选择

● 特征选择 — 分析前的特征移除 (或者说：只保留某些特征子集)

● 常见的特征选择

■ 基于专家知识移除"不重要"的特征 (例如，一个人的出生日期不太可能影响他/她的消费行为)

■ 移除可能引入伦理偏见的特征 (例如，信用卡批准的性取向和种族)

■ 移除方差非常低的特征 ➜ 没有用

■ 移除与其他特征强相关的特征 ➜ 不需要 (基本方法：计算成对关联并在高关联情况下移除其中一个特征)

■ 根据其区分数据点的能力移除排名较低的特征 (决策树的基本方法，根节点附近的特征产生更纯净的子树)

特征选择 — 优缺点

● 优点

■ 实施相对直接

■ 不改变特征本身 ➜ 分析结果的影响得以保留

● 缺点

■ 基于专家知识选择重要特征通常不是简单/明显的

■ 找到有意义的阈值 — 例如，最小方差或关联 — 不明显

维度降低 — 特征提取

● 特征提取 — 基本思想

■ 生成新特征作为原始特征的总结形式

■ 特征提取算法利用特征之间的区分能力和相关性

特征提取步骤

● 从2维降至1维

● 几乎没有信息损失

主成分分析 (PCA)

● PCA — 通过线性变换实现维度降低

■ 新的输出特征是原始输入特征的线性组合

■ 将数据转换到新的坐标系统

■ 无监督方法（与任何种类的类标签无关）

● 基本设置

■ 数据集 $X$ (有 $n$ 个样本， $d$ 个特征)

■ 找到矩阵 $W$ 将 $X$ 转换为 $p$ 维数据集（ $p<<d$ ）

PCA — 使用简单变换的直观理解

PCA — 寻找变换的等效目标

最小化残差

注意：这两个优化目标是等效的，其中最大化变换后点的方差更容易处理

最大化变换后点的方差

PCA — 数据归一化

● 数据归一化步骤

■ 均值中心化 — 不会影响结果，但会使数学计算变得更加简单

■ 标准化（除以标准差）— 可选；会影响结果

均值中心化的数据

均值中心化，标准化后的数据

PCA — 寻找第一个主成分

● 数据 $X$ 的第一个主成分

■ 单位向量 $w_1$ 用于最大化变换后数据的方差

■ $w_1=argmax_{||w||=1} \frac{1}{n}\sum_i(p_i-0)^2$

■ $\frac{1}{n}\sum_i(p_i-0)^2$ 变换后数据的方差

■ $p_i$ — 转换后的数据点 $x_i$

■ $x_i$ 因为均值中心化的数据为0

➜ $C_X$ 是 $X$ 的协方差矩阵

注意：有时 $C_X=X^TX$ （而不是 $C_X=X^TX/n$ ）。在这种情况下， $C_X$ 是未归一化的协方差矩阵（散射矩阵）。这只会影响特征值的大小，但不影响 $W$ 的特征向量。

➜ $w_1$ 是协方差矩阵 $C_X$ 的最大特征向量

PCA — 寻找第 k 个主成分

● 从 $X$ 中减去前 $(k-1)$ 个主成分

$X_k=X-\sum^{k-1}_{s=1}Xw_sw_s^T$

● 数据 $X_k$ 的第 $k$ 个主成分

■ 单位向量 $w_k$ 用于最大化变换后数据的方差 — 在变换 $X_k$ 之后

➜ $w_k$ 是协方差矩阵 $C_X^{(k)}$ 的最大特征向量

PCA — 获取所有主成分

● 数学便利性

■ $C_X^{(k)}$ 的最大特征向量 = $C_X$ 的第 $k$ 大特征向量

➜ $X$ 的主成分 = 协方差矩阵 $C_X$ 的特征向量

解释

● 第1主成分指向最大方差的方向

● 第2主成分指向最大方差的方向在从数据集 $X$ 中移除第1主成分后

● ...

PCA 代码Python (using numpy library)

PCA — 转换原始数据集 X

● $C_x$ 是一个 $(d\times d)$ 矩阵 ➜ $d$ 个特征向量和特征值

■ 如何选择 $1\leq p \leq d$ 来获得形状为 $(d \times p)$ 的转换矩阵 $W$ ？

● 解释方差比

■ 由每个主成分所属性的方差的百分比 ➜ 归一化的特征值

■ 选择 $p$ 使得最大的 $p$ 个 PC 解释最小量的方差

PCA — 完整示例（IRIS 数据集）

● IRIS 数据集

■ 只考虑了 3（4个中的3个）特征 — 只为了方便可视化 22 具有3个主成分的数据集 3个 PC 的解释方差

● 使用主成分转换 X

PCA — 优缺点

● 优点

■ 直观 — 利用关于相关和低方差特征的知识

■ 可以显著减少数据量

■ 提高算法的性能并降低过拟合的风险

■ 高维数据的可视化（即使仅在 EDA 期间应用）

● 缺点

■ 最基本的：信息损失

■ 假设特征之间有线性相关性

■ 假设大方差等于高重要性（并不总是这样）

■ 不考虑类标签（在分类任务中）

PCA — 用于分类数据集的局限性

● 将 PCA 应用于用于分类的标记数据集（病理性示例）

■ PCA 最大化整个数据集的方差

■ PCA 忽略了来自类标签的任何信息

线性判别分析 (LDA)

● 与 PCA 的相似性

■ 线性转换技术

■ 输出：矩阵 $W$ 将数据集 $X$ 转换为低维空间

● 主要区别：2个优化目标

■ 最小化每个类中的转换点的方差（回想一下 PCA 是最大化整个数据集的方差）

■ 最大化类之间的分离

LDA 概念 — 类间方差

● 类均值与（整体）均值之间的距离的方差

■ $C$ — 类的数量

■ $\mu^{(i)}$ — 类均值向量（类 $i$ 的数据点的均值）

■ $\mu$ — （整体）均值向量

LDA 概念 — 类内方差

● 同一类的数据点的方差

LDA — 优化目标

● 最大化： $J(w)=\frac{w^TS_Bw}{w^TS_Ww}$

■ $w^TS_Bw$ 投影的类均值的散度

■ $w^TS_Ww$ 每个类的投影数据点的散度

● 广义特征值问题： $S^{-1}_WS_Bw=J(w)w$

■ $J(w)$ 标量值！

最优的投影向量 = 矩阵 $S^{-1}_WS_B$ 的最大特征值的特征向量

关于特征向量的数量的注释

● $S_B$ 的定义包括两个约束

■ $S_B$ 是 $C$ 个秩为1或更小的矩阵的总和

■ 由均值 $\mu$ 约束 $\mu=\frac{1}{C} \sum_{i=1}^C \mu_i$

➜ $S_B$ 的秩为 $(C-1)$ 或更小

➜ 只有 $(C-1)$ 个特征向量是非零的！（相应的特征值为0）注意：在实践中，由于浮点不精确，这些剩余的 $d-c+1$ 特征值只是非常接近零

LDA — 算法

● 计算所有 $C$ 类的均值向量 $\mu$ 和 $\mu^{(i)}$

● 计算散射矩阵 $S_W$ 和 $S_B$

● 计算 $S_W^{-1}S_B$ 的特征向量和特征值

● 选择具有最大特征值的 $p$ 个特征向量 $w_p$

● 通过 $XW$ 将数据集 $X$ 投影到新空间

LDA — 完整示例（IRIS 数据集）

● 生成的 $d$ 个特征值（排序）

● 使用解释方差比选择 $p \leq C-1$

LDA — 优缺点

● 优点

■ 对 PCA 的直观扩展产生了类似的好处（数据量减少，过拟合风险降低，可视化等）

■ 考虑类标签（通常比 PCA 更适合有标签的数据集）

● 缺点

■ 与 PCA 相似的缺点（信息损失，假设线性相关等）

■ 假设单峰高斯分布

■ 假设均值是最有区分性的特征

LDA — 问题案例

● 数据分布是（显著地）非单峰高斯分布

t-分布随机邻域嵌入 (t-SNE)

● t-SNE — 非线性维度降低技术

■ 无监督方法（与任何种类的类标签无关）

■ 迭代算法：

1) 从随机的低维表示 $Y$ 开始

2) 改变 $Y$ ，直到损失函数收敛到最小值

● t-SNE 背后的直觉

■ 将 X 和 Y 中的欧几里得距离转换为条件概率

(例如，如果数据点 $x_i$ 和 $x_j$ 靠近 ➜ 条件概率 $p_{i|j}$ 应该很高)

■ 迭代地改变 Y，使两个概率分布变得更加相似

➜ 优化目标：在 X 中靠近的点在 Y 中也靠近 t-SNE — 将欧几里得距离转换为条件概率

● 数学公式

$p_{j|i}=\frac{exp(-||x_i-x_j||^2/2\sigma^2_i)}{\sum_{k\neq i}exp(-||x_i-x_k||^2/2\sigma^2_i)}$

■ 对于 X 中的数据点

● 视觉解释（对于 i=3）

■ 假设以 $x_3$ 为中心的 d-dim 高斯分布

■ 计算与高斯成正比的 $p_{j|3}$ (与每个点 $x_j$ 的虚线的高度成正比)

t-SNE

● t-SNE 使用学生 t 分布

■ 在实践中，更重的尾部产生了更好的结果

■ 1 个自由度

● 损失函数：P 和 Q 之间的 Kullback-Leibler 散度

注意：KL 散度是衡量一个概率分布与另一个概率分布有多大差异的度量

t-SNE — 最小化损失

● 使用梯度下降法最小化 L

t-SNE — 非确定性

● t-SNE 是非确定性的

■ $Y^{(0)}$ 是随机采样的

■ 不同的运行通常会产生不同的投影

■ 在实践中，执行多次运行以了解数据的情况

t-SNE — 计算 $p_{j|i}$ (实现细节)

● 如何选择 $\sigma_i$ 的值？

$p_{j|i}=\frac{exp(-||x_i-x_j||^2/2\sigma^2_i)}{\sum_{k\neq i}exp(-||x_i-x_k||^2/2\sigma^2_i)}$

● 直觉：根据 $x_i$ 周围的密度设置 $\sigma_i$

■ 高密度 ➜ 更小的 $\sigma_i$ / 低密度 ➜ 更大的 $\sigma_i$

■ 控制具有有效 $p_{j|i}$ 的 $x_j$ 的数量

● 基于超参数 perplexity 计算最佳 $\sigma_i$

■ 更大的perplexity：更多的邻居具有有效的 $p_{j|i}$

■ 实践中常见的perplexity值：5..50

t-SNE — 优缺点

● 优点

■ 可以处理非线性数据

■ 数据可视化效果非常好

● 缺点

■ 在非常高维的数据上计算非常昂贵（与，例如，PCA相比）

■ 非确定性行为；可能需要多次运行

■ 影响输出的多个超参数（perplexity, 学习率, 迭代次数, 初始化）

示例 — 数字数据集

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-维度降低

■ 只考虑了 3（4个中的3个）特征 — 只为了方便可视化 22 具有3个主成分的数据集 3个 PC 的解释方差。■ 根据其区分数据点的能力移除排名较低的特征 (决策树的基本方法，根节点附近的特征产生更纯净的子树)■ 基于专家知识移除"不重要"的特征 (例如，一个人的出生日期不太可能影响他/她的消费行为)■ 最小化每个类中的转换点的方差（回想一下 PCA 是最大化整个数据集的方差）■ 由每个主成分所属性的方差的百分比 ➜ 归一化的特征值。■ 更大的perplexity：更多的邻居具有有效的。
复制链接

扫一扫

专栏目录

dcjszhr CSDN认证博客专家 CSDN认证企业博客

码龄4年

45: 原创

104万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

1259: 积分

379: 粉丝

585: 获赞

6: 评论

501: 收藏

私信

关注

热门文章

分类专栏

最新评论

博弈论-公平分配不可分割的物品
CSDN-Ada助手: 恭喜你开始博客创作！这篇关于博弈论和公平分配不可分割物品的文章标题非常吸引人。你选择了一个有趣且具有挑战性的主题，这将为读者提供深入思考的机会。接下来，我建议你在博客中展开对博弈论的介绍，解释为什么公平分配不可分割物品是一个重要而复杂的问题。你可以提供相关案例或实际应用，以帮助读者更好地理解和应用这一概念。同时，你还可以探讨现有的解决方案以及可能的改进方法。希望你能继续努力，期待看到你未来的文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
博弈论-拍卖理论
CSDN-Ada助手: 恭喜您写完了第6篇博客，题目《博弈论-拍卖理论》让我对您的深度探索和扎实知识感到钦佩。您对博弈论和拍卖理论的理解和阐述令人受益匪浅。希望您能继续发掘更多相关领域的知识，为我们带来更多精彩的内容。建议您在下一篇博客中可以探讨博弈论在市场竞争中的应用，例如价格竞争或战略合作，这将进一步丰富我们对博弈论的了解。期待您的下一篇作品！
计算机系统性能分析-测试方法和容量规划
CSDN-Ada助手: 恭喜您写下了第四篇博客！标题“计算机系统性能分析-测试方法和容量规划”让我非常兴奋。通过您的文章，我们可以了解到如何通过性能分析和容量规划来优化计算机系统。这对于我们在日常工作中提高系统性能和规划资源分配非常有帮助。我非常欣赏您对这个主题的深入研究和精心撰写的博客。您对测试方法和容量规划的解释清晰明了，让我从中受益匪浅。此外，您的文章结构也很清晰，逻辑严谨，这使得读者更容易理解复杂的概念。在下一步的创作中，我希望您能进一步探索一些实际案例或是分享一些实际应用中的挑战和解决方案。这将使读者更加深入地理解如何应用您提到的测试方法和容量规划来解决实际问题。再次祝贺您的持续创作，期待您未来更多精彩的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
计算机系统性能分析【小白初写，持续学习持续更新】
CSDN-Ada助手: 恭喜你开始撰写博客！标题中的【小白初写，持续学习持续更新】充分展现了你对自己的谦虚态度和对知识持续探索的决心。计算机系统性能分析是一个庞大而复杂的领域，你的勇气和热情令人钦佩。在接下来的创作过程中，我建议你可以从自己的学习历程出发，分享一些实际案例或遇到的问题，并结合一些学习资源或方法来解决这些问题。这样的创作方式将会使你的博客更具可读性和实用性。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
纳什均衡和博弈论基础
CSDN-Ada助手: 非常感谢你的博客分享！你对纳什均衡和博弈论的解释非常清晰，让我对这个概念有了更深入的理解。在扩展知识和技能方面，你可以继续探索博弈论的应用领域，例如在经济学、政治学和生物学等领域中的应用。此外，你还可以研究更复杂的博弈模型，如混合策略博弈和动态博弈。这些扩展知识和技能将进一步拓宽你对博弈论的理解，并使你能够应用它解决更多实际问题。希望你能继续保持创作的热情，分享更多有趣且有深度的博文！我期待着你未来的文章，谢谢你的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。