前言
本次分享一篇依旧是2017年由何向南教授团队发表的《Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks》。本文的模型AFM主要聚焦于attention模型,文章末尾给出了该模型的复现代码。
本文约1.2k字,预计阅读10分钟。
AFM
AFM模型与NFM一样,也是何向南教授团队在2017年推出的模型,与NFM模型基本类似。但是NFM是通过一个sum pooling将所有的embedding向量进行聚合,它相当于每个向量具有相同的重要程度,如此会减弱其中具有重要信息的向量。因此AFM模型,通过增加一个Attention网络用来区分不同特征的交互的重要性,来提高整个模型的性能。Introduction不在赘述,直接对其模型进行剖析。
模型结构
Input与Embedding层
输入指的是稀疏特征,Embedding层与FM相同,都是将输入特征的稀疏表示映射到非零特征的密集型向量。
【注】:目前介绍过的模型大部分都是如此。
Pair-wise Interaction层
FM模型使用的是对每一对特征向量使用内积进行交互。受FM启发,作者提出了一个Pair-wise Interaction层,用来对每对Embedding向量进行各个元素对应相乘(element-wise product)交互【此处与NFM相同】。因此,若有 个特征向量的话,那就会产生 个交互向量。对其进行公式化,令非零特征向量 ,对应Embedding向量为