MSRA2018的xDeepFM(CIN)

xDeepFM:名副其实的 ”Deep” Factorization Machine

自动构造输入向量的“高阶”特征组合;可惜工业界实际效果一般比不过Wide&Deep和DeepFM;时间复杂度高是痛点;容易过拟合(可对特征做离散化,加dropout来解决)

基本框架依然基于标准的Embedding&MLP,其中Linear、Plain DNN分别类似Wide和Deep部分, CIN 部分是创新。

 

输入有m个field, embedding维度为D,CIN的第k层使用上一层的H_{k-1}个D维向量,和输入的m个D维向量,Element-wise相乘,得到H_{k-1}*m个D维向量(下图a),用一个H_{k-1}*m的矩阵来“卷积”,得到一个D维结果向量(下图b,一个Feature map),H_{k}个这样的矩阵,得到H_{k}个D维向量,作为第k层的输出(下图b中的所有Feature map);每一层把H_{k}个D维向量进行sum-pooling得到H_{k}个数值,所有层的数值们contact起来,得到一个向量(上图c最上面的一排黄色圆圈),和Linear和PlainDNN的结果再contact成一个向量,进行LR;

Compressed Interaction Network(CIN)就是这么来的,即把每层Compress成一个数;

1. 每层通过sum pooling对vector的元素加和输出,这么做的意义或合理性?可以设想,如果CIN只有1层, 只有m个vector,即H_{1}=m, 且加和的权重矩阵恒等于1,即W=1,那么sum pooling的输出结果,就是一系列的两两向量内积之和,即标准的FM(不考虑一阶与偏置)

2. 除了第1层,中间层的这种基于vector高阶组合有什么物理意义?回顾FM,虽然是二阶的,但可以扩展到多阶,例如考虑三阶FM,是对三个嵌入向量作Hadamard乘再对得到的vector作sum,CIN基于vector-wise的高阶组合再作sum pooling与之是类似的,这也是模型名字 “eXtreme Deep Factorization Machine (xDeepFM) ”的由来。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值