FM算法

最新推荐文章于 2024-07-12 17:35:14 发布

????sc

最新推荐文章于 2024-07-12 17:35:14 发布

阅读量2.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013015493/article/details/79426548

版权

机器学习专栏收录该内容

10 篇文章 1 订阅

订阅专栏

FM算法是旨在解决稀疏数据下特征组合问题
线性模型只考虑了单一特征对预测结果的影响，没有考虑组合特征对预测结果的影响。定义目标函数如下：
这里写图片描述
上式中，组合特征参数一共有n（n-1）/2g个，重要的是任意两个参数独立，但在特征非常稀疏的情况下，组合特征（xi，xj）出现同时不为0的情况较少的情况下，直接用梯度下降法对参数wij进行学习会使得大量的wij学习结果为0.训练样本不足，很容易导致参数wij不准确，影响模型的最终效果。
FM算法：
将W矩阵分解为：
这里写图片描述
目标函数进一步写成：

其中：
k代表v向量的维度，直接计算复杂度为O（kn2），因为需要计算所有的两两组合特征的，但通过重新分析目标函数，计算复杂度可以从O（kn2）降低到O(kn):

在参数稀疏的情况下对参数的估计：

在稀疏的前提下，没有足够的样本直接和单独地估计w（ij）【w（ij）反映了变量i和变量j对目标函数的影响程度】，因式分解机制可以不用对每一个不同的（wij）进行单独的估计，即，在有大量的样本可以估计出参数（wij）对（wij）的估计可以帮助估计一些与（wij）关联密切的参数，如（wik，wit或是wsj这些参数）。
自己的一些理解：假如我们要估计的参数是wij=vi*vj转置，但在样本稀疏的情况下，没有足够的样本（xi和xj同时不为0）来估计wij，当将wij表示成vi向量和vj向量相乘后，当有足够的样本估计出wik后，那么就可以获得对vi的估计，这会对wij的估计有帮助，要是能有足够的样本估计出wjt以后，也会对vj的估计有帮助，最终估计到的wij比在没有充足样本下估计为0好很多；论文《Factorization Machines》中举的一个例子，因为Bob对电影StarWars和StarTrek有相似的评分，所以StarWars的因式矢量应该和StarTrek的因式矢量保持相近，所以Alice和Star Trek因式矢量的应该和Alice和Wars的因式矢量相似，因为没有充足的样本估计Alice和Star Trek，但在可以估计出AliceWars的前提下，可以近似得到w(Alice,StarTrek)。

在计算复杂度的程度来看

：因为要计算两两交互的结果，计算复杂度应该是O（k*n^2）,但通过数学转换以后，可以变成O（kn）：
这里写图片描述

学习FactorizationMachines的参数：
采用SGD训练模型，模型各个参数的梯度更新公式如下：
这里写图片描述

训练和测试的计算复杂度为（kn）
总结
FM可以在高稀疏的情况下对数据间交互的作用进行估计，同时可以泛化到没有观测到的数据；另外参数的个数和训练和预测的时间都是线性的，正比于特征的位数。
很好的资料

总结-2
参数因子化可以使得xhxi和xixj参数不再相互独立，因此可以在样本稀疏的情况下相对合理地估计FM二次项系数，xhxi和xixj的系数有一个共同的项vi，所有包含有xi的非零组合特征的样本都可以用来学习隐向量vi，可以有效解决数据稀疏性造成的影响。但在以前的多项式模型中，wij与whi会相互独立。
深入理解FFM原理与实践