Provable Tensor Factorization with Missing Data论文总结

提出一种使用正交分解的张量方法,来尝试以有限数据来补全或者预测miss数据,并给出了有限数据的下限值的理论支持和证明过程,为了保障正交性,提出了Robust Tensor Power Method(RTPM)来进行约束,没有使用神经网络mlp,而是使用最小交替二乘法,并提出当基向量在已经确保正交后,还需要进行向量的分量的模不相干均衡,也给出了一些阈值的计算和实验。最后提出了一些数学上的分析和证明过程。

1、张量的分解思路

这是一个张量,张量表示了一个3维场景。我们要进行张量分解,使用的依旧是low rank低秩张量来表达高阶张量,大部分的论文都是 xyz三个方向的三维,比如tensorRF论文,这是从张量的三个方向视角来看待的,而本文是从特征正交的方向来分解的,也就是说从内容上来作为视角方向

2、不相干系数决定了正交基的一些约束

这是一个不相干系数,主要解决的是如果一个多维向量比如100维是一个基向量,也就是模长为1,不能出现1-99维度都是0.00001之类的数据,100维的时候为 0.9,这就不均衡,为什么要求均衡,作者提出了只有均衡的维度分布 才能更好的代表数据或者说拟合,这个暂且就这么认为吧,毕竟特征这两字本身就是和数学上不能一一绝对对应的。

提出这个不相干主要是要使用一个衡量,解决正交问题,比如定义了48个基向量,要正交,就必须使得两两向量积为0,所以专门引入 Robust Tensor Power Method(RTPM)来为张量分解提供高质量的初始估计。传统的方法可能在初始化时较为随机或简单,而 RTPM 能够通过特定的迭代和近似操作,使得初始的基向量更接近正交,为后续的分解过程奠定更好的基础。论文使用的是最小二乘法

3、残缺数据的补全或者预测

只把有效数据进行分解,模型就能通过有效数据的分解学习到一种分解模式,利用这个分解模式去预估数据缺失的部分。所以论文主要解决的是 利用部分有效数据来进行张量分解,从而预估未知数据。

question:如何通过已知数据来预测或者补全未知数据?

answer:通过已知数据进行张量分解,未知数据部分剔除训练或者分解过程,也就是说已知数据如果能较好的拟合,那么我们一定程度上可以相信未知数据也是可以通过训练好已经知道的数据的模型进行拟合的。

4、损失函数:

已知真实数据-已知坐标推测数据  比较直观不多做说明。

5、模型方法:最小交替二乘法

主要注意到里面使用了一个初始化保障正交,可能可以加快收敛。

6:什么时候有好效果?

作者认为当不相干系数达到某个范围才能有好效果,这是实验和理论的证明和描述。由于最小二乘法有一些算力限制,目前使用的梯度下降算法 更直观更好控制,这里以了解为主。

效果:随着迭代次数的增加,模型收敛。

关于精确补全必须的样本数量的探讨:文章描述了最小的样本数,给了一些探讨,表明这依旧是一个hp问题。

7、正交分解和非正交分解的对比

文章提到 数据模拟觉得非正交分解可以精确分解,但是理论上只有正交分解才能实现精确分解,我以前做过实验。非正交分解是可以的,这是作者的错误吧????????????????

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值