FM
线性模型的二阶特征组合
$w_ij$是固定的。
对于n个特征的模型,相比组合之前参数量级增加量级是$n^2$:
n个特征组合后是n(n-1)/2,比如有(n=)1000个特征增加近50万个参数。
怎么能减少参数呢?
概述
因子分解机(Factorization Machine),又称分解机器。
以线性二阶特征组合模型为基础,解决在稀疏数据的条件下特征组合的问题。
假设函数:
其中
上面第一个公式表示一条数据的假设函数。
n:特征个数 ,i:第i个特征 。
$w_i$:第i个特征的权重参数,$x_i$:第i个特征的数据值,$v_i$:第i个特征的embedding向量。
$$:第i,j个特征的embedding向量进行内积,得到一个标量值,只跟特征有关,跟样本无关。也就是具体两个特征组合的权重是固定的,所有特征进行两两组合后的每个组合的权重是固定的。
$x_i x_j$:第i,j个特征对应数据值的乘积,特征要先转换成数字。
第二个公式中:
k表示embedding向量的长度
引入原因:
1、弥补线性模型对稀疏情况下组合特征学习不足的问题(线性