【论文导读】AFM---Attention与FM的碰撞

最新推荐文章于 2024-10-19 14:52:02 发布

Blank_spaces

最新推荐文章于 2024-10-19 14:52:02 发布

阅读量767

点赞数

文章标签：深度学习人工智能 python 算法机器学习

本文链接：https://blog.csdn.net/Blank_spaces/article/details/107853306

版权

AFM模型由何向南教授团队在2017年提出，通过Attention网络区分特征交互重要性，解决FM模型效率低下的问题。文章介绍了AFM的模型结构，包括Input与Embedding层、Pair-wise Interaction层和Attention-based Pooling层，并讨论了代码复现和模型的实际应用局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

本次分享一篇依旧是2017年由何向南教授团队发表的《Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks》。本文的模型AFM主要聚焦于attention模型，文章末尾给出了该模型的复现代码。

本文约1.2k字，预计阅读10分钟。

AFM

AFM模型与NFM一样，也是何向南教授团队在2017年推出的模型，与NFM模型基本类似。但是NFM是通过一个sum pooling将所有的embedding向量进行聚合，它相当于每个向量具有相同的重要程度，如此会减弱其中具有重要信息的向量。因此AFM模型，通过增加一个Attention网络用来区分不同特征的交互的重要性，来提高整个模型的性能。Introduction不在赘述，直接对其模型进行剖析。

模型结构

Input与Embedding层

输入指的是稀疏特征，Embedding层与FM相同，都是将输入特征的稀疏表示映射到非零特征的密集型向量。

【注】：目前介绍过的模型大部分都是如此。

Pair-wise Interaction层

FM模型使用的是对每一对特征向量使用内积进行交互。受FM启发，作者提出了一个Pair-wise Interaction层，用来对每对Embedding向量进行各个元素对应相乘（element-wise product）交互【此处与NFM相同】。因此，若有个特征向量的话，那就会产生个交互向量。对其进行公式化，令非零特征向量，对应Embedding向量为

最低0.47元/天解锁文章