FM 模型

最新推荐文章于 2022-08-17 11:58:13 发布

HammerTien

最新推荐文章于 2022-08-17 11:58:13 发布

阅读量1.5k

点赞数 1

分类专栏：问题

本文链接：https://blog.csdn.net/HammerTien/article/details/98411699

版权

问题专栏收录该内容

4 篇文章 0 订阅

订阅专栏

FM 模型

在点击率预估任务中，原始数据集 大概是这种情况

点击	性别	地区	频道
1	男	天津	相声
0	女	甘肃	体育
1	女	云南	电视剧

将字符串输入到模型中肯定是不现实的，因此对类别型属性做 one-hot 处理

点击	性别=男	性别=女	地区=天津	地区=甘肃	地区=云南	频道=相声	频道=体育	频道=电视剧
1	1	0	1	0	0	1	0	0
1	0	1	0	1	0	0	1	0
1	0	1	0	0	1	1	0	1

这将会把数据集变得异常稀疏且庞大，
在某次任务中，在前一万条数据中，300维的原始数据就被扩充到将近10万维，
整理完300万条数据会发现扩充到了近120万维

线性回归/逻辑回归

线性回归
在这里插入图片描述
逻辑回归

这种传统而简单粗暴的方式简单实用，并且在很多生产环境中，确实就是这么做的，
但是这种模型只考虑了但一向特征自身对结果的影响性（权重*特征值求和），而 忽略了特征组合 对结果的影响

比如 < 地区=天津，频道=相声 > 或者 < 性别=女，频道=电视剧 > 等组合

二阶多项式核 SVM

既然 LR 们对特征的态度都是单打独斗性质的，那让特征两两组合手牵手不就考虑了特征组合因素了吗
在这里插入图片描述
在大部分数据中，两个特征值的乘积往往是0（两个特征都是1才会被学习到），
这就导致 Wij 这个权重项在大多数训练中都是无效的，没有被学习到，
因此这个模型 泛化能力差 （在生产环境下遇到xi * xj = 1 时就懵了）

因子分解机模型

弃用 SVM 的原因就是因为无法有效学习特征组合的权重，因为这个权重在训练的时候被太多的双0样本屏蔽掉了，因此就要选择方法去攻克这一问题
（下面公式推导在附录1）
在这里插入图片描述
根据数学性质运算将二次项再次化简

也就是说，现在我们只要训练向量 v 即可完成学习，并且只要 xi 不为0就可以有效学习（之前可是xi，xj都为1才是有效训练）