论文<Algorithms for non-negative matrix Factorization>

摘要:非负矩阵分解对于多元数据是有用的降维方法。分析两种不同的多元算法对于NMF。他们只是在在更新规则中乘法因子的有轻微的不同。一个算法显示去最小传统最小二乘损失,另一种是最小泛化的KL散度。这两算法的收敛可以使用一个辅助函数来证明收敛,类似于证明EM算法收敛时的辅助函数。算法也可被认为重新调节的梯度下降,其中重新调节因子选择最优来保证收敛。
1 简介:
非监督学习算法例如主成分分析和向量量子化可以被认为是分解数据矩阵,服从不同的约束。取决于约束的使用,结果向量可显示不同代表性的属性。主成分分析只加了一个弱的正交约束,得到一个分布式表达,使用删除(cancellations???)来生成多种变形。另一方面,向量量子化使用一个硬winner-take-all约束,导致将数据集手动聚类到一个独有原型。我们显示非负性是一个很好的约束对于矩阵分解,其可以学习数据的一部分表达。学习的非负基向量被用到分散的,也稀疏的结合中来生成重构中的表达。
2 非负矩阵分解
给定一个非负矩阵V, 找到两个非负矩阵因子W 和H,满足

VWH
(1)
给定多元n维数据向量集合,组成成 n×m 的矩阵V 其中m表示是样本个数。这个矩阵近似的被分解成 n×r 矩阵W 和 r×m 矩阵H。经常的r被选定比n或m都要小,以至于W和H比原始V要小。
等式一近似的重要性:它可以由列向量重新写成 vWh 其中v和h是V和H中对应的列。换句话说每个向量v使用W的列向量的线性结合来近似,通过h的成分来加权。因此W可以被视为包含对于在V中的数据的最优线性近似的基向量。当相关很少的基向量被用来表达很多数据时,好的近似只能当基向量发现数据中的隐藏结构来实现。
现在我们讨论两种算法对于NMF 基于迭代更新W和H。因为这些算法很简单就能实现并且能保证他们的收敛属性,我们发现在实践应用中也很有用。其他算法可能有用但是很难实现并且可能没有泛化到不同的损失函数。
在我们算法中每轮迭代,W或者H的新值通过乘以当前值和一些取决于等式的近似的质量的因子。我们证明近似的质量单调提升使用这些乘法更新规则的应用。在实践中,这意味着更新规则的重复迭代保证了收敛到一个局部最优的矩阵分解。
3 cost函数
为了去找一个近似的分解 VWH ,我们首先需要定义损失函数,来量化近似的质量。一个损失函数使用一些两非负矩阵A和B的距离度量函数来构建。一个有用的度量是基于欧氏距离的平方差
||AB||2=ij(AijBij)2

(2)
下界为0,当A = B时。
另一种有用的度量
D(A||B)=ij(AijlogAijBijAij+Bij)
(3)
像欧式距离,它的下届为0,当A=B时。但它不能称为距离,因为它不是对称的。所以我们称为AB之间的散度。当 ijAij=ijBij=1 时降到KL散度,或者相关熵,以便于A和B可被认为标准化的概率分布。
我们考虑两个可交替的NMF函数作为优化问题:问题1:最小 ||VWH||2 关于W和H,服从于约束 W,H0 .
问题2:最小D(V||WH)关于W和H,服从于约束 W,H0 .
尽管函数 ||VWH||2 D(V||WH) 只对W或者H凸问题,对于两个变量不是同时凸的。因此这不现实去期待算法去解问题1和问题2关于找一个全局解。然而,有很多数值优化的技术能应用到找局部最小值。
梯度下降可能是最简单的技术去实现,但收敛很慢。其他方法例如共轭梯度能更快收敛,至少在局部最小的附近,但更复杂去实现。梯度的收敛也有一些缺点,对于step size选取敏感,对大型应用不方便。
4 乘法更新规则
我们发现下列乘法更新规则是对于速度和实现难易程度的妥协来解决问题1和2。
理论1 欧式距离 |VWH| 在下列更新规则中是下降的:
HαμHαμ(WTV)αμ(WTWH)αμ
WiαWiα(VHT)iα(WHHT)iα

当且仅当W和H是在静态点的距离时,欧式距离在这些更新中不变。
理论2:散度D(V||WH)在下列更新规则中下降:
HαμHαμiWiαViα/(WH)iμkWkα

WiαμHαμViμ/(WH)iμvHαv

当且仅当W和H是在静态点的散度时,散度对于更新保持不变。
证明这个等式:目标函数 J=||VWH||2
分别对W和H求导:
JW=(VWH)HT=VHT+WHHT

JH=WT(VWH)=WTV+WTWH

使用梯度更新:
Wiu=WiuηiuJWiu

ηiu=Wiu(WHHT)iu , 则
Wiu=Wiu+Wiu(WHHT)iu(VHTWHHT)=Wiu(VHT)iu(WHHT)iu

同理,取 ηαμ=Hαμ(WTWH)αμ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值