主成分分析与奇异值分解的关系

最新推荐文章于 2024-04-18 14:33:23 发布

手撕机

最新推荐文章于 2024-04-18 14:33:23 发布

阅读量2.2k

点赞数 2

分类专栏：笔记文章标签： PCA SVD 联系

原创文章，未经授权请勿转载。

本文链接：https://blog.csdn.net/guolindonggld/article/details/79689832

版权

笔记专栏收录该内容

33 篇文章 4 订阅

订阅专栏

假如我们的原始数据矩阵是 $\mathbf{X}$ ，维度是 $n * m$ 。

主成分分析：
首先计算 $X$ 的协方差矩阵， $C$ 的维度是 $m * m$ ：
$C = C o v (X)$
然后对协方差矩阵进行特征分解，这里 $P_{m*m}$ 由 $C$ 的特征向量组成，对角矩阵 $\Lambda_{m*m}$ 由 $C$ 的特征值组成：
$C=P\Lambda P^{-1}$
最后选取前 $r$ 列得到 $P_{m*r}$ ，原始数据通过以下方式降维：
$\tilde{X}_{n*r}=X_{n*m}P_{m*r}$

奇异值分解：
$X$ 可以被分解为三个矩阵的乘积：
$X_{n*m} = U_{n*n} \Sigma_{n*m} V^T_{m*m}$

我们知道 $U$ 是由 $XX^T$ 的特征向量组成， $V$ 是由 $X^TX$ 的特征向量组成，而 $\Sigma$ 由 $XX^T$ 特征值的平方根组成。

联系是什么？
当 $X$ 是中心化了的数据，也就是说均值为0，其协方差矩阵可以由 $\frac{1}{n-1}X^TX$ 计算得到。

而可以看到在SVD中， $V$ 就直接是由 $X^TX$ 的特征向量组成的，那这里的 $V$ 就相当于上面的 $P$ 。

因此，原始数据中心化后还可以直接使用SVD的结果进行降维：

$\tilde{X}_{n*r}=X_{n*m}V_{m*r}$

注意前提条件：中心化了的原始数据。

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

手撕机 CSDN认证博客专家 CSDN认证企业博客

码龄12年

人工智能领域新星创作者

135: 原创

2781: 周排名

101万+: 总排名

180万+: 访问

: 等级

6438: 积分

2万+: 粉丝

836: 获赞

306: 评论

3686: 收藏

私信

关注

热门文章

分类专栏

Linux 1篇
Spark 5篇
CentOS 1篇
Keras 1篇
TensorFlow 2.0 2篇
Python 1篇
PyQt5 4篇
Java
推荐系统 4篇
评价指标 2篇
深度学习 1篇
PMML 1篇
基础算法 1篇
GraphX 1篇
运筹 1篇
机器学习 5篇
Hive 1篇
C++
TensorFlow 1.0 11篇
计算机网络
笔记 33篇

最新评论

搜索推荐评价指标Precision@k、Recall@k、F1@k、NDCG@k
m0_57914665: 在信息检索和推荐系统中，`TP@k`（True Positives @ k）和`FN@k`（False Negatives @ k）是评估推荐系统性能时使用的术语，特别是在二分类或多分类任务中。它们分别代表在前k个推荐结果中真正的正例数量（真正相关或用户真正感兴趣的项目数量）和未被推荐但实际相关的项目数量。 - **TP@k (True Positives @ k)**: 在推荐系统的前k个推荐结果中，实际被正确推荐的相关项目的数量。这些是系统正确识别并推荐给用户的项目。 - **FN@k (False Negatives @ k)**: 在推荐系统的前k个推荐结果之外，但实际上相关的项目数量。这些是系统未能推荐给用户的相关项目。 ### 示例假设在一个推荐系统中，我们有一个用户的测试集包含10部相关电影（用户会喜欢的电影）。系统推荐了10部电影作为推荐列表（k=10）。 - 如果在这10部推荐电影中有7部确实是用户会喜欢的，那么 `TP@10` 就是7。 - 假设测试集中还有3部相关电影没有被推荐，那么 `FN@10` 就是3。 ### 公式 - **TP@k**: \[ \text{TP@k} = \sum_{i=1}^{k} \mathbf{1}_{\{\text{第 } i \text{ 个推荐项目是相关的}\}} \] 这里 \(\mathbf{1}_{\{\cdot\}}\) 是指示函数，如果条件满足则为1，否则为0。 - **FN@k**: \[ \text{FN@k} = \sum_{\text{所有相关项目}} \mathbf{1}_{\{\text{项目不在前 } k \text{ 个推荐中的}\}} \] ### 使用场景 - **TP@k** 被用于计算精确率 (`Precision@k`) 和 F1 分数 (`F1@k`)。 - **FN@k** 被用于计算召回率 (`Recall@k`) 和 F1 分数。通过计算 TP@k 和 FN@k，我们可以进一步分析推荐系统的性能，并据此调整推荐算法以优化用户体验。
搜索推荐评价指标Precision@k、Recall@k、F1@k、NDCG@k
道与计算机编程: 作者对搜索结果评价指标的理解是不是有点点问题，以Precision@3为例，2/3的结果完全不能代表任何情况下搜索任务的精确度，你能明白我的意思么？因为你的这种计算方法只考虑了单次搜索，对评价整体任务看起来并没有意义。欢迎讨论
[TensorFlow笔记] 获取Tensor的维度（tf.shape(x)、x.shape和x.get_shape()的区别）
书店莫得: 解决问题，感谢博主分享，写的很清晰明了。赞
机器翻译评价指标之BLEU详细计算过程
HIT_胡森林: 应该是对结果扩大了100倍
解码之Beam Search算法
@__Chao - L: 有没有实现代码？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

手撕机 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。