如何理解矩阵采样中的杠杆值以及非相干系数？

最新推荐文章于 2024-04-19 19:51:09 发布

飞翔的红猪

最新推荐文章于 2024-04-19 19:51:09 发布

阅读量2k

点赞数 4

文章标签：矩阵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WangWeb1998/article/details/114386249

版权

本文探讨矩阵完备问题中的采样策略，包括随机均匀采样和自适应采样。矩阵的相干性影响采样效果，相干矩阵信息分布不均，自适应采样则关注杠杆值。杠杆值衡量矩阵行（列）的信息含量，通过矩阵SVD分解解释其计算原理，揭示其在采样中的重要性。

摘要由CSDN通过智能技术生成

问题背景

在矩阵完备（Matrix Completion）问题中，除了对原始矩阵有低秩性要求外，还根据采样方式的不同分为两种解决方案：

一种是随机均匀采样，但是需要约束矩阵为非相干矩阵。
第二种是自适应采样，这类方法主要思想是采样那些 “高质量” 的元素。

矩阵的相干性？

通俗地讲，矩阵相干性是指矩阵 “信息” 的分布密度。

在这里插入图片描述
对比这两个矩阵，我们可以很明显的看出左矩阵信息分布极度不均匀，该矩阵的信息集中分布在右上角的位置，如果采用随机采样，我们极有可能得到的是一些 “0” 元素，想要从这些 “0” 元素中恢复原始矩阵是不可能的。
反之，对于右面这个信息分布均匀的矩阵来说，采用随机采样的方式，我们会得到一些 “1” 元素，自然，我们也会猜测剩下的位置元素也都是 “1” 元素。

因此，总结一下，相干矩阵就是那些在相对少量的元素中具有大部分质量的矩阵。

杠杆值（leverage score）

其实，接着上面的思路来理解的话，杠杆值就是用来衡量原始矩阵的行（列）所蕴含的信息的大小，那些杠杆值大的行（列），所蕴含的信息就越多，自然在自适应采样过程中越应该被采样。

下面是一篇经典论文中对于杠杆值的定义

在这里插入图片描述
这两个等式分别代表矩阵 M 的某一行或者某一列的杠杆值，我们先以行杠杆值的计算公式为例：

由于该定义包含了标准化的步骤，也就是等式右边的系数，这对于我们理解杠杆值并不重要，因此我们主要讨论范数里面的式子。

理解 leverage score：

首先来看矩阵 M 的 SVD 分解，我们都知道奇异值分解之后的 $U\Sigma V^{T}$ 分别代表了左奇异向量、奇异值、右奇异向量矩阵。其中左右奇异向量分别张成了原始矩阵的列空间和行空间。如果某一个左（右）奇异向量对应的奇异值不为0，那么它就是矩阵列（行）空间中的一个基。
对于原始矩阵的某一行元素，存在以下事实：该行一定可以由 $V^{T}$ 中那些对应的奇异值不为 0 的行向量线性组合而成（因为这些行向量是矩阵行空间中的基）。
为了更好地理解下面的内容，我们先来理解一下元素所蕴含的信息量与所在空间的基的联系：
假设在一个三维坐标系中，点的位置坐标可以表示为（长，宽，高），并且该坐标系的基分别是 $e_{1}$ =（1，0，0）， $e_{2}$ =（0，1，0）， $e_{3}$

最低0.47元/天解锁文章

飞翔的红猪

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
2
评论
如何理解矩阵采样中的杠杆值以及非相干系数？

撒
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

飞翔的红猪 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。