推荐系统相关论文一句话总结(CTR)

目前共63篇文章

纯FM模型及其演变

Factorization Machines. 2010

推荐系统领域一开山鼻祖算法,另一个是CF。
借鉴MF的思想建立隐向量,首次将POLY2的模型二阶项权重难以更新的问题解决,并且可以将指数级运算复杂度降低到线性级别,多次比赛夺魁。
在这里插入图片描述在这里插入图片描述

Field-aware Factorization Machines for CTR Prediction. 2016

提出不同特征域中的特征进行交互时是有差别的,将传统隐向量进一步划分,提高了表达能力。
在这里插入图片描述

Neural Factorization Machines for Sparse Predictive Analytics. 2017

将传统FM的二阶项中的隐向量 v i , v j v_i,v_j vi,vj 的运算从内积转变为哈达玛积,求和后放入MLP中进行进一步高阶交叉。

f ( x ) f(x) f(x)即代表MLP与Pooling层
在这里插入图片描述
在这里插入图片描述

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks. 2017

第一次在FM里引入了注意力机制,通过注意力网络学习二阶特征交互的重要程度,加权后再进行传统操作。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising. 2018

将FFM模型从高复杂度中解放出来,优化了不同域交互中同一特征表现不一的问题,加入了一个标量来衡量域之间的交互强度。
在这里插入图片描述
同时也对线性项做了优化。
在这里插入图片描述

𝐹𝑀 2 ^2 2: Field-matrixed Factorization Machines for Recommender Systems. 2021 // Field-Embedded Factorization Machines for Click-through rate prediction. 2021

这两个要放在一起说,因为𝐹𝑀 2 ^2 2与FeFM想法撞车了,不过看了一下好像是FeFM先提出的,不过𝐹𝑀 2 ^2 2发表的快。
针对不同域之间的特征交互,加入了一个交互矩阵作为特征间的交互强弱参数。同时也提出了FvFM(即上述的交互矩阵变成交互向量),也使用FwFM的思想将线性项做了优化。
由于矩阵乘法的特性,可以控制每个 域交互对 的交互矩阵大小,也就是控制交互强弱。
在这里插入图片描述

Cross & MLP 混合模型及其演变

AdnFM: An Attentive DenseNet based Factorization Machine for Click-Through-Rate Prediction. 2021

将FM与改进后的MLP(引入注意力机制与残差网络)结合起来,试图在高阶特征交互中找到更重要的交互。效果似乎一般。
在这里插入图片描述
在这里插入图片描述

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks. 2019

使用多头注意力机制(Transformer)衡量特征之间的交互重要程度,也借鉴了残差网络的思想对最后的交互结果做了修改。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Deep & Cross Network for Ad Click Predictions. 2017

也借鉴了残差网络的思想,在上一层的基础上与最初的第一层交互拟合两层之间的差别。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems. 2020

在V1版本的基础上改进了模型联合方式,可以stack或者parallel,将参数向量转变为参数矩阵,提高了灵活度,并且使用专家模型MOE和SVD技术对参数矩阵进行了分解降低了时间复杂度。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

DeepLight: Deep Lightweight Feature Interactions for Accelerating CTR Predictions in Ad Serving. 2021

使用FwFM与MLP进行平行结构组合,不同于DeepFM,DeepLight使用剪枝算法对模型进行优化,降低了时间与空间复杂度。
在这里插入图片描述

Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features. 2016

高阶特征交互依赖于更深的网络层次,为了解决MLP无法做到更深层次的问题,首次将残差网络加入到特征组合模型中。
在这里插入图片描述
在这里插入图片描述

Deep Interest Network for Click-Through Rate Prediction. 2018

与AFM一样,把注意力机制引入到特征组合领域中,不过文章更具有业务气息。
创新点有三:注意力单元、可感知数据分布的激活函数、可感知数据分布的正则化项
在这里插入图片描述

Deep Interest Evolution Network for Click-Through Rate Prediction. 2018

针对用户历史行为序列进行建模预测下一次用户的行为,以此来提高预测准确度,获得了很好的效果。
创新点有二:优化了传统GRU方法引入注意力激活单元、针对GRU提出了辅助loss函数。
且开创性的将用户兴趣模型分为:兴趣提取层、兴趣演化层,减轻用户兴趣转移所带来的噪声。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Combo-Fashion: Fashion Clothes Matching CTR Prediction with Item History. 2022 KDD

提出了新的CTR研究方向:流行服装的成套推荐
本文提出了新的正负样本emb + 服饰特征(CPM) + 传统特征的特征组合方式
按照工业界的推荐系统那样分为召回阶段和精排阶段,提出了MSM、MPM
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction. 2017

开创性的提出Embedding共享,同时抓取低维及高维特征组合。
在这里插入图片描述

Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction. 2016

没啥特别的,就是预训练一个FM,将其中的 v 1 . . . . . v i v_1 ..... v_i v1.....vi作为MLP的embedding输入。

在这里插入图片描述

Wide & Deep Learning for Recommender Systems. 2016

首次将平行结构引入CTR领域,实现人工和自动的特征交互。
首次提出 “记忆” 与 “泛化” 能力。
在这里插入图片描述
在这里插入图片描述

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems. 2018

比较复杂的一个DCN改进版本,将向量交叉变为矩阵交叉,并利用卷积网络的思想(卷积核 + pooling层)对三维张量进行降维处理后再进行最后的预测。
在这里插入图片描述
在这里插入图片描述

Product-based Neural Networks for User Response Prediction. 2016

证明了MLP的特征交互能力不足,此后的很多的模型如(DCN)都证明了这一点。
此模型的思路是做一个重叠(stack)结构,embedding后先特征交叉再输入到MLP中。
外积效果最好,但一般使用内积。
在这里插入图片描述

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction. 2019 RecSys

本文的Bilinear-Interaction Layer与 F M 2 FM^2 FM2极其相似,并且提前了3年,不过它提出了不同的交叉方法:先矩阵乘法再哈达玛积。
借鉴CV领域的SENET模型衡量不同特征域之间交互的重要程度,类似于注意力机制,之后将每个域的注意力分数与原Embedding相乘。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Neural Collaborative Filtering vs. Matrix Factorization Revisited. 2020 RecSys

本文指出MLP十分垃圾,想要达到普通点积的操作效果的话,需要大量的数据来学习,同时使用防止过拟合的手段,吃力不讨好。
点积 vs MLP

在这里插入图片描述

Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches. 2019 RecSys

发表之后饱受质疑的一篇文章,当年最佳论文。
它说深度学习不行!但是遭到很多学者的声讨,埋怨作者没有完全理解他们的模型,也没有进行合适的调参。
开怼!

Deep Session Interest Network for Click-Through Rate Prediction. 2019 IJCAI

DSIN是一个集大成的模型,可以将此模型看做五层:
划分层:将原始用户行为序列Embedding后按照30min为一个session进行划分
抽取层:使用transformer对行为序列进行编码,使一个具体的点击行为包含与之相关的其它行为,即使用注意力加权操作强调与当前用户行为相关的行为。
交互层:使用Bi-LSTM对抽取到的行为序列进行进一步操作,使之包含行为的顺序信息。
激活层:依据目标广告item对抽取层与交互层编码后的序列信息进行注意力操作,找到与目标广告item相关的行为,对其加权。
MLP层:将处理好的信息concat起来与用户特征一起输入到一个MLP里进行交互,最后输出预测结果。
文本提到的一些子模型可以看看这个博客

在这里插入图片描述

CAN: Feature Co-Action for Click-Through Rate Prediction. 2022 WSDM

把co-action希望建模的两个ID,一端信息作为输入,另一端信息作为MLP的参数,用MLP的输出来表达co-action信息。

本文对过去该领域的模型做了总结,指出基于信息汇聚的模型(DIN、Graph-based)主要用于信息的汇聚没有信息增强,而特征交叉(DCN、FM)模型本质上是一种信息增强。

无论是信息增强还是信息组合中,特征embedding并进行特征交互操作与进一步的输入神经网络学习特征交互是耦合的,都是通过反向传播来更新embedding和NN中的参数,CAN把它们解耦。将传统的表示学习流程从 “获取稀疏特征、embedding、对embedding交叉获得高维特征” 这几个步骤转变为获取稀疏特征、使用特征交叉获得高维特征、embedding

这样做有什么好处呢?
首先可以看到embedding必定是有信息损失的,在已有损失的情况下进行特征交叉,效果必定不好,况且NN是随着学习的过程对embedding进行更新,这就导致特征交叉(如对embedding进行外积)也会随之更新。【交叉后的高维特征应该独立于低维原始特征】
而CAN中是先原始特征交叉再进行embedding,获得一个新的 交叉后特征embedding,此embedding不仅没有信息损失而且不会因为原始特征的embedding更新而更新。

CTR预估建模问题里,把待预估的商品信息(如item id)和用户历史行为序列信息(如item id sequence)做笛卡尔积,形成一个新的id sequence,对其直接做embedding后pooling效果很好,会在DIN和DIEN的基础上再有比较明显的提升。
这里是作者的说明,比论文本身更加精彩
在这里插入图片描述

Open Benchmarking for Click-Through Rate Prediction. 2021 CIKM

一篇关于开源的CTR框架的介绍 + CTR领域简单综述 + 模型客观比较 + “炼丹”经验
在这里插入图片描述

FinalMLP: An Enhanced Two-Stream MLP Model for CTR Prediction. 2023 AAAI

一个特征交互选择 + 双MLP 平行模型 + 多头聚合层的模型,效果出奇的好,强烈的质疑并否定了如今CTR领域追求显示特征交互、认为MLP作用甚至不如哈达玛和内积操作的现状。
在这里插入图片描述

Operation-aware Neural Networks for User Response Prediction. 2020 Neural Networks

借鉴PNN以及FFM的思想,相同的特征域,但对每一种交互骨架做不同的emb交互,不同的特征域之间的emb交互也不同,有用,但时间复杂度太高。
提出BN比Dropout有用,多种交互骨架操作比单一交互骨架要有用。
在这里插入图片描述

Enhancing Explicit and Implicit Feature Interactions via Information Sharing for Parallel Deep CTR Models. 2021 CIKM

该模型将embedding经过 Regulation Module 进行区分,再通过 Bridge Module 相互交流左右两个子模型,得到最后的结果。
不过效果似乎不是很好,基线太低。而且有致命的问题存在,MLP不能定制为塔型结构,而是必须输入和输出维度一致。
在这里插入图片描述

在这里插入图片描述

Looking at CTR Prediction Again: Is Attention All You Need? 2021 SIGIR

纯纯水文,旧活新整。逆天,居然发了SIGIR
重新定义了一遍CTR任务及模型范式,文章指出注意力十分有用,高阶特征交互并不怎么有用。
在这里插入图片描述

MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask. 2021 DLP-KDD

非常简单的模型,蹭了mask的热度
对embedding加入LN再使用个MLP去学习权重,之后将其做逐元素乘法,得到的新embedding拼接起来再过一个MLP得到最后的结果。
在这里插入图片描述

XCrossNet: Feature Structure-Oriented Learning for Click-Through Rate Prediction. 2021 PAKDD

把连续特征和分类特征分开处理,连续特征直接使用DCN的交互方式,分类特征使用IPNN的内积和一阶特征与可学习权重的内积concat输入后过一个MLP

在这里插入图片描述

DCAP: Deep Cross Attentional Product Network for User Response Prediction. 2021 CIKM

没什么东西,就是先用transformer聚集各个特征域的信息,之后与原始一阶embeddings做内积然后concat作为MLP的输入,相当于强化了的IPNN
在这里插入图片描述

Adaptive Factorization Network: Learning Adaptive-Order Feature Interactions. 2020 AAAI

使用老古董Logarithmic Neural Network(1996)来做基于哈达玛积的任意特征交互阶数,再与MLP结合得到最后的结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction. 2023 CIKM

只是在DCNv2中加入了门控单元,就提升了很多性能。还提出了FDO以优化embedding维度,不过不是端到端的。
在这里插入图片描述

EulerNet: Adaptive Feature Interaction Learning via Euler’s Formula for CTR Prediction. 2023 SIGIR

使用欧拉公式对特征进行交互,分别使用YX坐标系和极坐标表示同样的特征embedding,随后输入线性层再相加。
在这里插入图片描述

Gate mechanism

GateNet:Gating-Enhanced Deep Network for Click-Through Rate Prediction. 2020 arXiv:2007.03519

首次研究了门控机制对MLP的影响。
在这里插入图片描述

GemNN: Gating-enhanced Multi-task Neural Networks with Feature Interaction Learning for CTR Prediction. 2021 SIGIR

与上一篇文章相比进一步研究了门控机制在CTR中的应用,在何处加入门控机制有用,以及什么样的激活函数有用。
在这里插入图片描述

PEPNet: Parameter and Embedding Personalized Network for Infusing with Personalized Prior Information. 2023 KDD

针对多域多任务的各项任务提出了统一的解决方法,即PEPNet模型
创新点:sigmoid * 2 门控网络梯度不回传 双MLP架构
在这里插入图片描述
在这里插入图片描述

Interesting work

Correct Normalization Matters: Understanding the Effect of Normalization On Deep Neural Network Models For Click-Through Rate Prediction. 2020 DLP-KDD

提出了更简单的layernorm,指出应该在不同的地方使用不同的正则化手段可以提高模型效果。在这里插入图片描述

Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Prediction Models. 2022 CIKM

指出CTR的one-epoch现象出现的原因:模型结构,优化器,特征稀疏度都会导致此现象的发生。
并且发现在第二个epoch时,MLP会快速适应数据分布,导致过拟合现象。
在这里插入图片描述

GNN for feature interaction model

与传统基于GNN的推荐不同的是,传统RS使用user-item交互矩阵建模,默认具有相同交互的user以及item之间存在相似关系,而CTR领域的特征交互可以看做item的属性以及user的属性之间的交互,它们一般不存在相似关系。

Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction. 2020 CIKM

一篇经典的GNN在CTR领域内的应用文章,使用transformer编码field的信息作为图结点的初始化状态,再经过图交互层(GGNN),得分评价层输出预测结果。
图交互层包括:结点交互权重的邻接矩阵、结点入度出度矩阵、一个GRUCell组成

在这里插入图片描述
在这里插入图片描述

GraphFM: Graph Factorization Machines for Feature Interaction Modeling. 2022 arXiv:2105.11866

与Fi-GNN同一作者,本模型把图结构学习与NMF相结合再加上多头注意力机制。

  • 先使用一个邻接矩阵 P P P来建模特征交互的有用边(交互),选择根据超参数限定的top有用的交互
  • 再使用多头注意力机制为有用边加上全局权重

原文中的架构图感觉有错误,这里就不放了

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
多头注意力机制
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
最后的embedding更新方式有两种
在这里插入图片描述
最后的全员拼接和投影向量p是我没想到的,离谱
在这里插入图片描述

KGAT: Knowledge Graph Attention Network for Recommendation. 2019 KDD

把传统推荐的CF建模方法与CTR的建模方法结合起来,建立一个知识图谱,通过关系(基于item属性)与entities(item属性)为中间桥梁去找user和item之间的协同信号。
本文指出传统推荐停留在user-item中(即原图第一第二层),CTR虽然利用了Entities但是没有真正的高阶连通性(文中给出的例子感觉有些牵强)

在这里插入图片描述
在这里插入图片描述
Embedding层使用了TransR(?没听说过…)提高了embedding后的三元组的表达能力。
Propagation层使用腐败系数来控制高阶交互,文中特地强调了和GCN中的不同。
最后是为了把entities信息集中到user与item上做个内积得到结果。
损失函数没有使用一般的逻辑损失而是BPR loss

在这里插入图片描述

Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction. 2021 SIGIR

本文写的很简短,可能是为了所谓的商业机密吧,首次提出将user与item的交互正样本次数与总共该user与该item的交互次数的比例作为图神经网络边的权重,以此来预测没有记录的user-item交互(也就是图上的边),也可以理解为入度出度的权重,这属于预训练阶段。
完成预训练阶段之后对其进行结点信息聚合,聚合后放入MLP。
在这里插入图片描述

(GraphSAGE)Inductive Representation Learning on Large Graphs. 2017 NIPS

工业级GCN落地必须的论文,阿里的论文(Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction. 就是上面的那一篇)即采用了本文的架构。
本文提出传统的GCN需要先使用数据训练得到所有结点的Embedding之后在根据各自方式从一阶邻居、二阶邻居…聚集结点信息,照成时间复杂度太高,并且不符合现实的使用,因为在现实中很多未知结点无法进行Embedding。
所以,本文根据此方法提出了先随机采样结点,再递归聚合信息的思想,并且加入了无监督的结点信息聚合聚合方式(结点近的信息要相似,远的要不同)
具体做法就是先对一个结点随机采样一阶、二阶…邻居结点形成一个子图,再递归的从最远的结点来聚合信息到目标结点,最后学习到的结点Embedding自然包含了所有结点的信息。

可以参考:GraphSAGE
在这里插入图片描述
这里注意虽然伪代码是从K为1开始的,但是在附录里本文解释了这是一种递归,结果还是从最远处开始的。
在这里插入图片描述

AutoML for CTR

AIM: Automatic Interaction Machine for Click-Through Rate Prediction. 2021 TKDE

其实这一篇放在FM-Improve分类里也可以,但是本文提出的是一种泛用性高的通用AutoML实现框架,包含自动搜索特征交互的重要程度、特征交互的方法(同一对特征可以有多个交互)、embedding维度修剪。
其实换个方向理解依旧还是attention
在这里插入图片描述

AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction. 2020 KDD

使用GRDA预训练出有用的特征交互
在这里插入图片描述

在这里插入图片描述

自动机器学习在CTR上的经典应用,继承DARTS的基于梯度下降的优化方法,开创性的使用了GRDA Optimizer并且将DARTS的二级优化方式改为同一级连续优化方式,不过也分了预训练和正式训练的阶段。

AutoFeature: Searching for Feature Interactions and Their Architectures for Click-through Rate Prediction. 2020 CIKM

在找到有用的特征交互的基础上进一步的选择product Layer的交互方式,使用树搜索。
在这里插入图片描述
使用递归的分治方法优化巨大的交互方式搜索空间:
首先随机初始化一个较大的交互方式的搜索空间,之后对其配备一个采样样本空间进行训练,判断AUC是否达标,达标的部分就放在左子树上,不达标的部分就放在右子树上。
最后到达叶子结点后会发现,最左边的的交互方式是最有希望的,相反,最右边是最没有希望的。
取样时最左边的概率会大些,最右边的就比较低,
在这里插入图片描述
感觉不如直接Attention

Automated Machine Learning on Graphs: A Survey. 2021 IJCAI

AutoML在GNN上应用的总结,也介绍了作者设计的Graph AutoML工具包。
在这里插入图片描述
在这里插入图片描述

A Generalization of Regularized Dual Averaging and Its Dynamics. 2019 arXiv:1909.10072

本文提出了广义正则对偶平均算法。
当我们需要一个稀疏的参数集时,传统SGD算法无法达到我们期望,并且在L1正则化下不能很好的约束参数的学习过程,而此文提出的优化器在L1正则项的约束下总会产生稀疏解。

可以看到传统SGD的做法即是随机选取一个样本对损失函数求导,并根据梯度变化参数
在这里插入图片描述
可以看到当 P ( w ) = 0 , F ( w ) = L 2 P(w) = 0, F(w) = L2 P(w)=0,F(w)=L2正则项时,RDA = 小批量SGD
RDA中称 F ( w ) F(w) F(w)为正则项, P ( w ) P(w) P(w)为惩罚项,选取不同的惩罚项结构,得到的解的结构也不同。
在这里插入图片描述
此文证明了RDA中的惩罚项总是会过于偏激,即总是趋于无穷大。
所以此文优化了RDA的惩罚项
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AutoML for Deep Recommender Systems: A Survey. 2023 TOIS

太长了,见另一篇博客

Single-shot Embedding Dimension Search in Recommender System. 2022 SIGIR

这个文章方法挺离谱的,把维度从 1 ~ D依次进行Embedding,获得embedding矩阵,然后依次预训练
修剪阶段用小批量的数据评价每种embedding矩阵的的得分,得到一个embedding评价指标的稀疏值,确定用哪个embedding矩阵获得embedding
重训练阶段按照修建的结果重训练模型,遇到embedding维度不一致的时候用投影矩阵进行维度统一
在这里插入图片描述

On-Device Next-Item Recommendation with Self-Supervised Knowledge Distillation. 2022 SIGIR

在这里插入图片描述

Debias

Graph Debiased Contrastive Learning with Joint Representation Clustering. 2021 IJCAI

本文使用聚类的方式消除假的负样本,与传统对比学习达到了相辅相成的目的。
在这里插入图片描述

Fairly Adaptive Negative Sampling for Recommendations.2023 WWW

提出了一种自适应公平性负采样的算法。
在BPR Loss中一般使用正负样本对来学习,这时就需要负采样策略。传统方法是随机性负采样,这就导致了组间不平衡问题。
如:组A与组B,假设组A有30个样本,组B有100个样本
此时对AB同时使用随机负采样会导致属于A的较少,属于B的较多。导致样本数量少的组无法得到很好的模型适应。

在这里插入图片描述
在这里插入图片描述
看这个图可以发现,虽然每个组内样本都均衡的输入给模型,但是最后的召回率是下降的,这就需要考虑一下模型的性能与均衡样本采样之间的权衡了。

Unbiased Ad Click Prediction for Position-aware Advertising Systems. 2020 RecSys

这篇我只是略读,主旨是把广告具体的位置信息加入点击模型中去考虑,优化被点击效果。
本文提出广告的位置会影响最后用户的点击率,过去的CTR模型都是默认位置无关的,这就造成了偏差,加入位置信息的话又难以建立模型求解。
这个问题是他们第一次提出来,等有时间了可以看看

A General Framework for Debiasing in CTR Prediction. 2021 arXiv:2112.02767

同上

Contrastive Learning for CTR

CL4CTR: A Contrastive Learning Framework for CTR Prediction. 2023 WSDM

首次在CTR中使用对比学习来增进embedding学习效果
为CTR引入了对比损失:在这里插入图片描述
特征对齐损失(两个相同域的特征emb应该相似):
在这里插入图片描述
特征均匀损失(不同特征域的特征emb应该越来越远):
在这里插入图片描述
在这里插入图片描述

Contrastive Learning for Recommendation

(simGCL) Are Graph Augmentations Necessary? Simple Graph Contrastive Learning for Recommendation. 2022 SIGIR

在这里插入图片描述

指出基于对比学习的图推荐中Augmentation没有必要,有点用但没那么有用,基于负样本的对比损失才是最有价值的。
在这里插入图片描述
因此他提出Augmentation不使用丢边或者丢结点而是对embedding加入均匀噪声,取得了很好的效果。
在这里插入图片描述

XSimGCL: Towards Extremely Simple Graph Contrastive Learning for Recommendation. 2023 TKDE

在SimGCL的基础上进一步做出了简化,文章大致内容和SimGCL,主题思想是不再进行平行对比而是进行垂直对比。
在这里插入图片描述

Logloss-Improve

Denoising Implicit Feedback for Recommendation. 2021 WSDM

提出两个优化Logloss的范式
在这里插入图片描述
在这里插入图片描述

Focal Loss for Dense Object Detection. 2017 ICCV

何凯明大神提出的简单又好用的加权logloss优化方案,称为Focal Loss
在这里插入图片描述

Understanding the Ranking Loss for Recommendation with Sparse User Feedback. 2024 arXiv

非常有意义的一份工作!
去年年底我也想到了非常类似的Idea,但是拼起来在Criteo数据集上性能提升微不足道…

该工作探索了分类损失和排序损失联合优化时解决了什么问题,以及为什么这么优化。
在这里插入图片描述

  • 7
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值