自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(212)
  • 收藏
  • 关注

原创 HyFormer:重新审视序列建模和特征交互在 CTR 预测中的作用(二)-深度解读之query表示问题

摘要:本文分析了推荐系统中Query表示过于简单的问题及其效率瓶颈。研究发现现有方法仅使用1-2个token表示候选商品特征,信息来源有限且容量不足。实验表明增加Query数量虽能提升效果,但会导致推理效率崩溃。这主要源于KV-Cache机制的计算量线性增长和M-Falcon推理框架的批处理限制。M-Falcon作为工业级优化框架,通过批量处理、KV-Cache管理、内存池等技术提升效率,但也对Query数量形成严格约束。HyFormer提出创新解决方案:保持少量Query但通过多层迭代优化质量,在满足效率

2026-05-10 15:32:10 407

原创 HyFormer:重新审视序列建模和特征交互在 CTR 预测中的作用(一)

本文提出HyFormer,一种统一混合Transformer架构,用于工业推荐系统中的长序列建模和异构特征交互。HyFormer通过查询解码和查询提升两个核心模块交替优化,实现序列与非序列特征的深度双向交互。实验表明,HyFormer在十亿级工业数据集上优于传统两阶段模型,AUC提升0.17%,计算效率更高,并在抖音搜索平台在线A/B测试中显著提升用户观看时长1.11%,降低查询修改率0.236%。该架构为工业推荐系统提供了更高效的统一建模框架。

2026-05-09 00:10:08 410 1

原创 从入门到工业落地:生成式推荐系统学习路线 + 论文合集

本文系统介绍了生成式推荐系统的技术全景与发展路线。首先概述了从传统判别式推荐向生成式推荐的范式变革,指出其核心优势在于端到端统一、语义理解增强和灵活泛化能力。随后详细梳理了技术演进的三个阶段(生成式协同过滤、LLM驱动、工业级框架)和七大核心技术分支,并提供了按学习路线分类的经典论文清单(包括基础序列模型、语义ID、工业框架等)。文章还设计了阶梯式学习路径(从基础到前沿约14周),最后展望了2026年关键发展方向(高效推理、多模态统一、Agent交互等)。该框架为研究者提供了生成式推荐领域的系统性学习指南。

2026-05-08 00:33:13 382

原创 图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)-torch(一)

本文介绍了图神经网络HAN模型的PyTorch实现。该模型基于ACM数据集,包含3025个节点,使用PAP和PLP两种元路径构建异构图。模型参数包括8维隐藏层、8个注意力头、0.6的dropout率等。实现过程包括数据预处理(稀疏矩阵转换)、数据集划分、模型训练(200轮epoch,100轮早停)和评估。HAN模型核心包含节点级注意力(GATConv)和语义级注意力机制,通过加权融合不同元路径信息。最终测试结果显示micro-F1和macro-F1分数均达到0.87+,验证了模型有效性。文章还预告后续将深入

2026-03-29 23:08:23 511

原创 图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)(三)

本文介绍了图神经网络中的HAN(异构图注意力网络)模型实现,包含四种变体:标准GAT、HeteGAT_multi(核心模型)、HeteGAT_no_coef(简化版)和HeteGAT(完整版)。核心模型采用双层注意力机制:节点级注意力学习同元路径下邻居的重要性,语义级注意力融合不同元路径的嵌入。文章详细解析了attn_head和SimpleAttLayer的实现,前者计算节点间注意力系数,后者学习元路径权重。完整版HeteGAT支持返回注意力系数,可用于模型可解释性分析。代码实现采用TensorFlow框架

2026-03-29 17:58:12 374

原创 图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)(二)

本文介绍了基于异构图注意力网络(HAN)的图神经网络实战,使用ACM数据集(3025篇论文,分3类)进行模型训练。主要内容包括:1) 数据预处理,通过元路径PAP和PLP构建邻接矩阵;2) 模型超参数设置(batch_size=1, lr=0.005等);3) 核心实现:使用矩阵乘法计算n-hop邻居可达性,将邻接矩阵转换为注意力偏置矩阵;4) 训练流程,包括损失计算、早停机制等。文章重点解析了图神经网络中通过矩阵乘法实现路径累积的技术细节,为后续模型详解做铺垫。

2026-03-28 21:17:13 379

原创 图神经网络分享系列-HAN(Heterogeneous Graph Attention Network)(一)

本文提出了一种新型异构图注意力网络(HAN),通过分层注意力机制(节点级和语义级)有效处理异构图的复杂结构和丰富语义。节点级注意力学习邻居节点的重要性,语义级注意力学习不同元路径的重要性。实验表明,HAN在节点分类和聚类任务上优于现有方法,并具有良好的可解释性。该模型计算高效,适用于大规模异构图分析。

2026-03-21 18:11:22 847

原创 图神经网络分享系列-MPNN(Neural Message Passing for Quantum Chemistry)(三)

本文系统阐述了图神经网络(GNN)的理论框架及应用,重点分析了基于拉普拉斯算子的消息传递神经网络(MPNN)模型。研究详细推导了Kipf&Welling(2016)的一阶近似模型,并将其纳入MPNN统一框架。在量子化学应用方面,论文深入探讨了12个关键分子特性的计算方法,包括原子化能量、振动频率和电子态等。通过大量实验对比,验证了边网络+Set2Set架构的优越性能,特别是在处理分子长程相互作用时表现突出。研究还建立了化学精度与DFT误差的量化标准,为后续研究提供了重要基准。

2026-03-21 11:55:01 371

原创 图神经网络分享系列-MPNN(Neural Message Passing for Quantum Chemistry)(二)

本文研究了消息传递神经网络(MPNN)在预测分子化学性质中的应用。以QM9数据集为基础,重点探讨了MPNN架构优化,包括消息函数设计、虚拟图元素、读出函数改进和多塔结构等创新方法。实验表明,采用边网络消息函数和Set2Set输出的MPNN变体在13个目标性质中的11个上达到了化学精度,性能优于传统方法。研究还发现,显式处理氢原子节点和包含空间距离信息对提升预测精度至关重要。多塔结构不仅提高了计算效率,还增强了模型泛化能力。未来工作将致力于改进模型对更大分子结构的泛化能力,探索注意力机制等解决方案。

2026-03-15 22:21:37 414

原创 图神经网络分享系列-图神经网络常用损失函数详解

本文系统介绍了图神经网络中常用的损失函数及其应用场景。主要内容包括:1)节点/图分类任务中的交叉熵损失和负对数似然损失;2)链接预测任务中的BPR损失、MarginRankingLoss等;3)对比学习中的InfoNCELoss和TripletLoss;4)图生成任务中的GAN和VAE损失;5)L2正则化和图拉普拉斯正则化。文章详细推导了NLLLoss与交叉熵损失的等价性,并通过实例说明不同损失函数的特点和使用场景,为图神经网络任务中的损失函数选择提供了实用指导。

2026-03-08 12:15:29 407

原创 图神经网络分享系列-LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation(二)实战篇

本文实现了一个简化版的LightGCN推荐系统模型,使用标准PyTorch完成。模型包含两个核心组件:LightGCNLayer实现单层图卷积操作,通过稀疏矩阵乘法聚合邻居信息;LightGCN作为完整模型,包含初始化嵌入矩阵、构建归一化邻接矩阵和多层图卷积传播功能。特别地,模型采用对称归一化处理邻接矩阵,并通过平均各层嵌入来增强表达能力。相比原版LightGCN依赖torch_sparse库,这个实现更易理解且适用于中小规模数据集,保留了LightGCN最核心的邻域聚合和层聚合设计思想。

2026-03-07 22:19:34 451

原创 图神经网络分享系列-LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation(一)

在初始步骤中,每个用户和物品都与一个ID嵌入相关联。设eu(0)​表示用户u的ID嵌入,ei(0)​表示物品i的ID嵌入。然后,NGCF利用用户-物品交互图来传播嵌入,如下所示:其中,eu(k)​和ei(k)​分别表示经过k层传播后用户u和物品i的细化嵌入,σ是非线性激活函数,Nu​表示与用户u交互的物品集合,Ni​表示与物品i交互的用户集合,W1​和W2​是每层执行特征变换的可训练权重矩阵。

2026-03-01 11:24:52 809

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (五)-实战篇

本文介绍了GraphSAGE算法的核心实现,重点讲解邻居采样和特征聚合两个关键步骤。在采样部分,说明了一阶和二阶邻居采样的具体方法;在聚合部分,详细分析了均值聚合的实现方式,并比较了包含/不包含自身节点的两种实现。文章还探讨了两层聚合的必要性,指出其能扩展感受野并增强非线性建模能力。最后给出了完整的GraphSAGE实现代码,并解释了其名称由来(Graph SAmple and aggreGatE)。全文通过具体代码示例和深入思考,帮助读者理解这一图神经网络算法的实现细节。

2026-02-08 23:28:14 874

原创 图神经网络分享系列-MPNN(Neural Message Passing for Quantum Chemistry)(一)

本文提出消息传递神经网络(MPNN)框架,统一了多种图结构数据学习模型,并将其应用于分子性质预测。MPNN通过消息传递和顶点更新两阶段处理图数据,保持图同构不变性。在QM9数据集13个量子化学性质预测任务中,11个达到DFT计算精度,5个仅基于拓扑结构即实现化学精度。研究展示了MPNN在分子建模中的潜力,为药物发现和材料科学提供了有效工具。未来工作将探索更大分子规模和高精度数据集的适用性。

2026-02-02 00:22:55 805

原创 图神经网络分享系列-GCN(SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS)(四)实战篇

本文介绍了图卷积网络(GCN)的代码实现核心部分。重点讲解了邻接矩阵添加自连接、度矩阵构建以及对称归一化处理(DAD)的实现过程。通过具体示例展示了如何将邻接矩阵转换为DAD矩阵,并解释了聚合过程中度矩阵的作用。文章还提供了GCN层的PyTorch实现代码,包括权重初始化、前向传播等关键步骤。GCN的核心在于通过DAD矩阵实现节点特征的聚合与传播,相比GAT更简单直接。

2026-02-01 23:24:53 746

原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (四)-实战篇

本文介绍了图注意力网络(GAT)的核心实现原理和代码细节。GAT通过注意力机制处理图结构数据,主要关注一阶邻居节点以减少计算量并获取局部信息。文章详细讲解了注意力分数计算过程:通过节点特征拼接、权重矩阵相乘和LeakyReLU激活函数得到注意力分数,再使用softmax归一化。重点阐述了mask-attention的实现方法,通过邻接矩阵屏蔽非直接相连节点的注意力权重。最后给出了GATLayer的核心代码实现,包括特征变换、注意力计算和聚合输出等关键步骤。该技术适用于处理图结构数据,在保留局部信息的同时降低

2026-01-31 13:10:54 824

原创 图神经网络分享系列-GGNN(GATED GRAPH SEQUENCE NEURAL NETWORKS)(三)

本文系统研究了图神经网络(GNN)及其门控变体GG-NN/GGS-NN的理论基础与应用前景。通过对比传统逻辑推理方法,揭示了GNN通过权重学习隐式掌握背景知识的机制。实验表明GGS-NN在图结构任务中展现出优越性能,但也存在长程依赖建模、非结构化输入处理等局限。理论分析部分证明了线性/非线性条件下信息传播的收缩特性,解释了GNN在长距离依赖中的固有约束。与RNN/LSTM的对比实验突显了GNN在非时序性数据结构处理中的优势,同时指出了其在时序序列任务中的适应性挑战。最后探讨了嵌套数据结构的扩展处理方法,为未

2026-01-25 20:16:02 761

原创 图神经网络分享系列-GGNN(GATED GRAPH SEQUENCE NEURAL NETWORKS)(二)

摘要:门控图序列神经网络(GGS-NNs)通过多步GG-NN顺序运行处理图结构数据,包含共享传播模型的简化变体可提升效率。实验显示其在bAbI推理任务(如路径查找)和算法学习(最短路径、欧拉回路)中显著优于RNN/LSTM,仅需50样本即达高精度。在程序验证领域,GGS-NNs能自动生成分离逻辑公式描述堆内存状态,准确率89.96%,支持批量预测并成功验证链表算法。模型通过节点标注机制实现序列预测,两种训练设置(带观测/隐标注)适应不同场景需求。

2026-01-25 18:32:18 776

原创 图神经网络分享系列-GGNN(GATED GRAPH SEQUENCE NEURAL NETWORKS)(一)

本文提出门控图序列神经网络(GGS-NN),通过改进经典图神经网络结构,引入GRU门控机制和现代优化技术,实现图结构输入的序列输出能力。相比纯序列模型,该模型在图结构问题中具有更优的归纳偏置。实验表明,GGS-NN在bAbI任务、图算法学习及程序验证等任务中表现优异,特别是在程序验证的子图抽象数据结构描述任务中达到最优性能。该模型通过节点标注机制、改进的传播模型和灵活的输出模型设计,有效解决了图结构输入到序列输出的特征学习问题。

2026-01-21 19:49:46 666

原创 图神经网络分享系列-GCN(SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS)(三)

本文研究了Weisfeiler-Lehman(WL)算法与图神经网络(GCN)的关联性,将WL算法的哈希函数替换为可微神经网络层,建立了GCN作为WL算法的可微推广版本的理论基础。实验表明,即使未经训练的GCN模型也能产生有效的节点嵌入,与DeepWalk效果相当但计算成本更低。在半监督学习场景下,GCN仅需少量标记节点即可实现社区分离。通过Cora等数据集的实验发现,2-3层GCN模型效果最佳,深层模型需引入残差连接以避免训练困难。研究揭示了GCN在图结构学习和特征提取方面的优势,为图神经网络设计提供了理

2026-01-21 17:58:00 640

原创 图神经网络分享系列-GCN(SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS)(二)

本文研究了基于图卷积网络(GCN)的半监督节点分类方法。首先回顾了基于图的半监督学习和图神经网络的相关工作,重点分析了现有方法的局限性。实验部分在引文网络、知识图谱和随机图上测试了模型性能,采用两层GCN结构并优化超参数。结果表明,该模型在分类准确率和计算效率上均优于标签传播、半监督嵌入等基线方法,验证了重归一化传播模型的有效性。同时指出了模型在内存需求、有向边处理等方面的局限性,为未来改进指明了方向。

2026-01-21 13:46:44 666

原创 图神经网络分享系列-GCN(SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS)(一)

本文提出了一种基于图卷积网络(GCN)的半监督节点分类方法。通过谱图卷积的一阶近似理论,构建了高效的层间传播规则,其计算复杂度与图边数呈线性关系。模型采用邻接矩阵和节点特征共同训练,避免了显式的图正则化。在引文网络等数据集上的实验表明,该方法在准确率和效率上均优于现有技术。特别地,双层GCN通过稀疏矩阵运算实现高效计算,并利用交叉熵损失进行端到端训练,适用于大规模图数据。

2026-01-21 12:49:01 1247

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (四)

本文提出了一种基于小批量随机梯度下降的GraphSAGE图神经网络算法,重点阐述了其小批量前向传播机制和邻域采样策略。算法通过分层采样和聚合实现高效计算,支持节点分类等任务。实验部分详细说明了PPI、Reddit和WoS数据集的构建方法,以及超参数调优策略。理论分析证明了池化聚合器在特定条件下能够学习节点聚类系数,并讨论了嵌入方法的对齐问题和正交不变性特性。实验结果表明,该方法在不同数据集上表现良好,尤其当输入特征具有区分性时效果更佳。

2026-01-18 17:31:03 646 2

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (三)

本文介绍了GraphSAGE在图节点分类任务上的实验研究。通过在引文数据、Reddit帖子和蛋白质相互作用三个数据集上的测试,结果表明GraphSAGE显著优于随机分类器、逻辑回归和DeepWalk等基线方法。实验比较了四种聚合函数变体,发现LSTM和池化聚合器表现最佳,其中池化聚合器在效率上更具优势。理论分析表明GraphSAGE能有效学习局部图结构,仅需有限次迭代即可逼近目标精度。该框架无需任务特定微调即可实现强劲性能,测试速度比DeepWalk快100-500倍,为处理大规模动态图提供了高效解决方案。

2026-01-18 12:07:07 747

原创 推荐系统分享系列-DIN(Deep Interest Network for Click-Through Rate Prediction)(二)

摘要:DIN(深度兴趣网络)通过引入注意力机制动态捕捉用户兴趣,其核心创新在于Activation Unit模块,该模块结合候选商品与历史行为的外积和差值计算注意力得分,实现加权求和生成用户兴趣表征。针对大规模稀疏数据,DIN采用仅更新非零特征的稀疏感知正则化技术,并使用Dice激活函数自适应调整校正点。文章同时指出DIN存在兴趣表征静态化、粒度较粗及长序列捕捉不足等问题,并展示了包含Embedding层、注意力层和MLP层的代码框架。该模型有效提升了CTR预测性能,为后续改进奠定了基础。

2026-01-17 22:16:15 913

原创 面试常问系列(一)-激活函数-relu/leaky_relu/prelu/dice

摘要: 本文分析了ReLU、LeakyReLU和PReLU等激活函数如何解决传统Sigmoid/Tanh的梯度消失问题。ReLU通过正区间梯度恒为1避免衰减,但负区间梯度为零可能导致神经元死亡;LeakyReLU引入固定小负梯度(如0.01)缓解该问题;PReLU进一步通过可学习参数α自适应调整负区间梯度,适应不同特征分布(如推荐系统中用户年龄和价格的差异)。此外,Dice激活函数(如DIN模型所用)动态调整校正点为数据均值,并平滑过渡,更适用于数据分布多变的场景(如用户兴趣建模)。实验显示,Dice比PR

2026-01-17 18:15:55 717

原创 推荐系统分享系列-DIN(Deep Interest Network for Click-Through Rate Prediction)(一)

本文提出深度兴趣网络(DIN)用于电商广告点击率预测,解决了传统固定长度用户表征无法捕捉多样化兴趣的瓶颈。DIN通过局部激活单元动态计算用户兴趣表示,使其随广告变化;同时开发了小批量感知正则化和数据自适应激活函数两项技术,支持工业级大规模训练。实验表明,DIN在公开数据集和阿里巴巴20亿样本上均优于现有方法,线上A/B测试点击率提升10%。可视化分析验证了DIN能形成多峰兴趣分布,有效建模用户行为特性。该模型已成功部署于阿里巴巴广告系统,为工业级深度学习应用提供了新思路。

2026-01-11 20:02:41 928

原创 推荐系统分享系列-DIN(Deep Interest Network for Click-Through Rate Prediction)-注意力机制

摘要:DIN模型在注意力机制中引入外积和差值操作以增强特征交互能力。外积通过矩阵运算显式建模用户历史行为与候选商品的多维交互关系,解决传统点积和加性方法无法捕捉非线性交互的问题。差值则通过向量减法捕捉方向性差异,补充外积在相对变化趋势上的不足。二者协同作用:外积关注特征乘积组合(如品牌×类别),差值关注相对变化(如价格高低)。工程实现上通过降维和并行计算优化性能。这种组合设计使DIN能更精准地计算注意力权重,适应电商推荐中复杂的动态兴趣变化。

2026-01-11 13:23:43 925

原创 推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(三)

本文研究了多模态大语言模型(MLLMs)在多模态推荐任务中的表现。通过分析Qwen-VL-Chat等模型的显著性分数,发现传统MLLMs需要结构调整才能适用于多模态表征任务。零样本实验表明现有MLLMs表示能力不及BM25,但能有效融合多模态信息,且文本表示优于视觉。特别测试了长文本场景,发现大语言模型的长上下文理解能力带来显著性能提升。研究还介绍了Tomato模型的持续预训练细节,包括中文词表扩展和多源数据训练。结果表明需要额外训练才能使MLLMs与推荐任务对齐。

2025-12-12 22:53:49 887

原创 推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(二)

本文提出NoteLLM-2框架,通过改进多模态大语言模型(MLRM)在推荐系统中的视觉信息利用能力。针对端到端训练导致视觉信息利用不足的问题,提出基于提示的改进(mICL)和基于架构的改进(延迟融合)两种方法:mICL通过重构提示模板解耦视觉与文本表示;延迟融合通过门控机制增强原始视觉信息。实验表明,该方法显著提升了小视觉编码器模型的性能,在线A/B测试显示点击量提升6.35%。分析发现该方法能有效平衡多模态注意力分布,且对超参数变化具有鲁棒性。未来将扩展至视频等多模态推荐场景。

2025-12-12 22:53:00 1086

原创 推荐大模型系列-NoteLLM-2: Multimodal Large Representation Models for Recommendation(一)

本文提出NoteLLM-2框架,旨在解决大语言模型(LLMs)在多模态商品推荐(I2I)中的视觉信息忽视问题。研究发现直接微调的LLMs存在文本偏向性,为此创新性地设计了两种方法:基于提示词的多模态上下文学习(mICL)分离视觉与文本内容,以及晚期融合技术直接整合视觉信息。实验表明,该框架显著提升了多模态表征性能,在召回任务中优于传统方法。研究首次探索了LLM辅助的多模态表征在推荐场景的应用,为跨模态表征学习提供了新思路。

2025-12-09 00:54:52 1222

原创 推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(三)

本文提出NoteLLM,一个基于大语言模型的可检索笔记推荐系统。研究在小红书商品数据集上验证了模型有效性,采用MetaLLaMA2作为基础模型,通过笔记压缩提示、生成式对比学习(GCL)和协同监督微调(CSFT)三个核心组件实现I2I推荐和标签/类别生成任务。实验表明,NoteLLM在召回率指标上优于现有方法,对高低曝光笔记均有效,在线实验点击率提升16.2%。消融研究证实CSFT模块的关键作用,同时发现标签与类别生成任务存在权衡关系。模型已部署于小红书平台,有效提升推荐效果和用户体验。

2025-12-07 21:48:46 1096

原创 推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(二)

本文提出NoteLLM框架,用于同时处理图像推荐和标签/分类生成任务。该框架包含三个核心组件:1)笔记压缩提示构建,将笔记内容压缩为特殊标记;2)生成式对比学习(GCL),通过对比学习捕获笔记间的协同信号;3)协同监督微调(CSFT),结合语义和协同信息生成标签/分类。GCL利用用户行为数据构建相关笔记对,CSFT则联合优化标签生成和分类任务。实验表明,NoteLLM能有效整合语义和协同信息,在推荐和生成任务中表现优异。

2025-12-07 20:52:05 907

原创 推荐大模型系列-NoteLLM: A Retrievable Large Language Model for Note Recommendation(一)

摘要: 本文提出NoteLLM框架,创新性地利用大语言模型(LLMs)解决社交媒体笔记推荐(I2I)问题。针对现有基于BERT的方法仅将标签/分类作为内容组成部分的局限,该框架通过多任务学习同时优化笔记推荐和标签/分类生成任务。核心创新包括:1)设计笔记压缩提示生成特殊标记作为嵌入;2)采用生成-对比学习识别相关笔记;3)通过协同监督微调生成标签/分类以增强嵌入质量。实验表明,该方案在小红书平台显著优于基线方法,为LLMs在I2I推荐中的应用提供了新思路。

2025-12-07 20:50:39 1240

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (二)

GraphSAGE是一种基于图神经网络的归纳式表示学习方法,其核心在于通过采样和聚合邻居特征实现层次化表征学习。算法采用K层迭代结构,每层节点聚合其邻域信息并更新表示。该方法支持均值、LSTM和池化三种聚合器架构,具有对称性和可训练性。参数学习通过随机梯度下降优化基于图结构的损失函数,使相邻节点表示相似。GraphSAGE与Weisfeiler-Lehman同构测试存在理论关联,通过固定大小邻居采样保证计算效率。实验表明该方法在无监督和任务特定场景下均能生成有效的节点表示。

2025-11-16 22:30:38 926 4

原创 图神经网络分享系列-GraphSage(Inductive Representation Learning on Large Graphs) (一)

GraphSAGE:一种高效的归纳式图节点嵌入框架 摘要:GraphSAGE提出了一种创新的归纳式框架,用于动态生成未见节点的低维嵌入。与传统的直推式方法不同,该框架通过学习聚合函数来整合节点特征和局部邻域信息,实现对新节点的有效表征。实验表明,该方法在引文网络、社交网络和生物网络等多个领域显著优于基线模型,在跨领域任务中分类准确率提升达51%,聚合器架构改进带来7.4%的性能增益。其核心创新在于打破静态图限制,通过特征采样和聚合机制适应动态变化的图结构,为社交网络分析、生物信息学等领域的实际应用提供了更灵

2025-11-16 22:27:01 733 2

原创 推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network)(三)

本文研究了推荐系统中的不完美双跷跷板问题,提出PEPNet(参数和嵌入个性化网络)解决多领域和多任务推荐中的性能不平衡问题。在快手平台的实验中,PEPNet显著优于现有方法,在三个领域六项任务上平均提升0.01-0.03 GAUC。消融实验验证了EPNet和PPNet模块的有效性,超参数分析表明模型稳定可靠。在线A/B测试显示各项指标显著提升,特别是观看时长获得0.1%的商业价值增长。该模型已部署服务3亿用户,证明了在多任务多场景推荐中的优越性能。

2025-11-06 21:13:58 1185

原创 推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network)(二)

本文提出PEPNet模型解决多领域多任务推荐中的个性化问题。该模型包含三个核心组件:门控神经单元(GateNU)处理个性化先验信息;嵌入个性化网络(EPNet)通过领域特征调整共享嵌入;参数个性化网络(PPNet)为用户定制DNN参数。工程实现中采用特征淘汰、在线同步和分训练策略优化系统性能。实验表明该模型能有效缓解不完全双重seesaw问题,已在快手平台成功部署。

2025-11-06 15:00:25 1353

原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (三)

本文介绍了图注意力网络(GAT)在直推式和归纳式学习任务中的评估结果。在三个标准引文网络数据集(Cora、Citeseer、Pubmed)和蛋白质相互作用(PPI)数据集上的实验表明,GAT模型在所有任务中均达到或超越当前最优性能。通过采用注意力机制,GAT能够为邻居节点分配差异化权重,在Cora和Citeseer上比GCN提升1.5-1.6%,在PPI数据集上比GraphSAGE提升20.5%。文章详细描述了实验设置、对比基线方法、模型架构及其正则化策略,并通过特征可视化验证了模型的判别能力。GAT具有计

2025-11-02 21:31:11 888

原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (二)

本文介绍了图注意力网络(GAT)的核心架构及其技术优势。GAT通过引入注意力机制,在计算节点特征时动态分配不同权重,解决了传统图神经网络的一些局限性。文章详细阐述了单图注意力层的实现,包括输入特征转换、注意力系数计算和多头注意力机制。GAT具有计算高效、可并行化、能处理有向图等优点,其时间复杂度与GCN相当。相比现有方法,GAT能隐式分配节点重要性,不依赖全局结构信息,适用于归纳学习任务。文章还探讨了GAT与MoNet模型的关联,并指出了当前实现中的计算优化方向。

2025-11-02 21:30:47 1350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除