- 博客(172)
- 收藏
- 关注
原创 推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network for Infusing with Personalized Prior I)
摘要: 本文提出PEPNet(参数与嵌入个性化网络),用于解决多领域多任务推荐系统的双重跷跷板效应。PEPNet通过嵌入个性化网络(EPNet)动态调整特征重要性,参数个性化网络(PPNet)平衡任务差异,实现用户兴趣的精准捕捉。在快手应用中,该模型服务3亿日活用户,线上指标提升1%-2%,具有高效、即插即用的特点。 关键词: 多领域学习、多任务学习、个性化、推荐系统
2025-10-24 23:56:18
487
原创 自然语言处理分享系列-词语和短语的分布式表示及其组合性(二)
摘要:本文探讨了Skip-gram模型中负采样和高频词子采样技术的优化方法。负采样新发展作为分层softmax ставка替代方案, titular 通过3/4次方调整unigram分布作为噪声 recommend 分布效果最佳。高频词子采样显著提升训练速度并改善低频词表示质量。实证表明,负采样在类比任务上优于分层softmax,而短语表示通过词向量加性组合展现出线性语义特性。研究团队开源了训练代码,在 Themen 大规模数据训练拆卸下,模型性能显著提升。
2025-10-23 23:52:59
742
原创 图神经网络分享系列-GAT(GRAPH ATTENTION NETWORKS) (一)
《图注意力网络(GAT)技术解析》摘要: GAT提出了一种基于自注意力机制的新型图神经网络架构,通过掩码注意力层突破传统图卷积方法的局限。该模型使节点能自适应关注邻居特征,动态分配差异化权重,无需复杂矩阵运算或完整图结构信息。采用多头注意力机制替代传统卷积操作,显著降低计算复杂度,支持端到端学习节点关系。实验表明,GAT在Cora等四个基准数据集上均达到SOTA水平,尤其在蛋白质相互作用数据集中展现了优异的归纳学习能力。该技术同步解决了谱方法面临的关键问题,为处理不规则图结构数据提供了新范式。
2025-10-23 23:46:43
591
原创 自然语言处理分享系列-词向量空间中的高效表示估计(三)
本文研究比较了不同词向量模型在语义和句法任务中的表现。通过构建包含近2万测试问题的评估集,发现Skip-gram模型在语义任务中表现最优,CBOW模型在句法任务中领先。实验表明,增加训练数据量和词向量维度能提升性能,但存在收益递减点。研究还展示了词向量代数运算在类比推理等任务中的应用潜力,如"巴黎-法国+意大利=罗马"这类关系推理准确率约60%。采用分布式训练框架后,模型可在万亿级语料上训练,性能较传统方法提升显著。词向量技术为机器翻译、信息检索等NLP任务提供了重要基础。
2025-10-12 11:42:02
665
原创 自然语言处理分享系列-词语和短语的分布式表示及其组合性(一)
本文提出改进的连续Skip-gram模型,通过高频词下采样和负采样优化,显著提升词向量质量和训练效率。针对传统词向量无法表示短语的局限性,提出数据驱动的短语识别方法,将短语作为独立单元处理。模型展现出向量加法组合性,如"Russia"+"river"≈"Volga River"。采用分层softmax的二叉树结构,计算复杂度从O(W)降至O(logW),其中霍夫曼树编码进一步加速高频词处理。这些改进使模型能在单机一天内处理千亿级词汇量。
2025-10-12 11:40:55
1084
原创 自然语言处理分享系列-词向量空间中的高效表示估计(二)
本文探讨了通过神经网络学习词分布式表示的不同模型架构。重点分析了前馈神经网络语言模型(NNLM)和循环神经网络语言模型(RNNLM)的计算复杂度与优化策略,包括层次softmax等效率提升方法。随后提出两种新的对数线性模型:连续词袋模型(CBOW)通过平均上下文词向量预测当前词;连续Skip-gram模型则采用动态窗口策略,以当前词预测周边词。这些模型在保持表示质量的同时显著降低了计算复杂度,为大规模语料处理提供了高效解决方案。
2025-10-08 16:33:22
600
原创 自然语言处理分享系列-词向量空间中的高效表示估计(一)
本文提出两种新型模型架构,用于从超大规模数据中高效计算词向量表示。实验表明,新方法在词汇相似性任务上准确率显著提升,仅需不到一天即可处理16亿词数据,且计算成本大幅降低。词向量在语法和语义相似性度量上达到当前最优性能。研究突破了大语料训练限制,支持百万级词汇表,并通过向量偏移技术揭示词间多重关系。相比传统神经网络语言模型,该方法更高效实用,为自然语言处理任务提供了优质词向量基础。
2025-10-08 14:26:11
1277
原创 图神经网络分享系列-transe(Translating Embeddings for Modeling Multi-relational Data) (二)
本文介绍了TransE知识图谱嵌入模型在WordNet和Freebase数据集上的实验评估。实验采用链接预测任务,对比了RESCAL、SE、SME等多种基线方法。结果表明,TransE在所有指标上均显著优于其他方法,在WN数据集上hits@10达89%,在FB1M数据集上达34%。分析显示TransE的优异表现源于其简洁有效的平移操作设计,能更好地处理1-TO-1、1-TO-MANY等不同类型的关系。此外,TransE在新关系学习任务中展现出快速泛化能力,仅需10个样本即可达到18%的hits@10。研究证
2025-09-30 21:31:58
797
原创 图神经网络分享系列-transe(Translating Embeddings for Modeling Multi-relational Data) (一)
本文提出TransE模型,通过将知识图谱中的关系表示为实体嵌入的平移操作(h+l≈t),实现高效的多关系数据建模。相比复杂模型,TransE参数少、易训练,在WordNet和Freebase的链接预测任务中表现优异,并能扩展到超大规模数据集(100万实体、1700万样本)。研究分析了TransE与结构化嵌入(SE)等方法的差异,指出简单模型在捕捉常见关系模式上的优势。虽然对三元交互建模存在局限,但实验表明TransE在通用知识库中更具实用性。
2025-09-30 21:23:08
996
原创 图神经网络分享系列-metapath2vec(Scalable Representation Learning for Heterogeneous Networks) (三)
该研究针对异质网络表征学习问题,提出了metapath2vec和metapath2vec++模型。通过在AMiner和DBIS数据集上的实验验证,模型在多类别节点分类、聚类等任务中显著优于DeepWalk、LINE等基线方法,尤其在5%小训练集下会议分类F1值提升达319%。研究还通过相似性搜索和可视化分析证明模型能有效捕捉异质网络的语义关系,并展示出良好的并行计算扩展性(40核加速32倍)。论文为异质网络挖掘提供了新思路,同时指出自动学习元路径、动态网络适应等未来方向。
2025-09-14 15:21:57
932
原创 图神经网络分享系列-metapath2vec(Scalable Representation Learning for Heterogeneous Networks) (二)
本文提出metapath2vec框架及其改进版metapath2vec++,用于解决异构网络表示学习问题。针对网络异构性带来的节点邻域定义和结构语义建模挑战,该框架通过元路径引导的随机游走策略生成异构上下文,并采用异构skip-gram模型进行表征学习。其中,metapath2vec++创新性地引入类型特定的负采样机制,为每种节点类型构建独立的多项分布,有效提升了异构网络嵌入效果。实验表明该方法在节点分类等任务中具有优越性能。
2025-09-14 15:21:00
924
原创 图神经网络分享系列-metapath2vec(Scalable Representation Learning for Heterogeneous Networks) (一)
本文提出metapath2vec和metapath2vec++模型,用于解决异构网络表征学习中的多类型节点嵌入问题。通过元路径引导的随机游走和异构skip-gram模型,有效捕捉网络中的高阶结构和语义关系。实验表明,该模型在节点分类、聚类等任务中性能显著优于基线方法(提升35%-319%),并能自动发现跨节点类型的语义关联。相比同质网络嵌入方法,该框架避免了节点关系同质化带来的表征混淆,为复杂异构网络分析提供了新工具。
2025-09-13 23:06:33
839
原创 图神经网络分享系列-SDNE(Structural Deep Network Embedding) (三)
本文提出了一种结构深度网络嵌入方法(SDNE),通过半监督深度模型联合优化一阶和二阶邻近度,有效捕捉网络的高度非线性结构。实验在5个真实数据集上验证了该方法在网络重构、多标签分类、链接预测和可视化任务中的优越性。结果显示,SDNE在稀疏网络环境下表现稳健,分类任务中Micro-F1和Macro-F1指标显著优于基线方法,链接预测精度在k=1000时仍保持0.9以上,可视化效果边界清晰。参数分析表明,平衡邻近度权重和非零元素重构误差对性能至关重要。该方法为网络表征学习提供了新思路,未来将研究新节点的嵌入问题。
2025-09-13 22:13:53
1035
原创 图神经网络分享系列-SDNE(Structural Deep Network Embedding) (二)
本文提出了一种半监督深度模型SDNE用于网络嵌入,通过结合一阶邻近性(局部结构)和二阶邻近性(全局结构)来学习节点表示。模型采用深度自编码器架构,无监督部分通过邻接矩阵重构保留二阶邻近性,有监督部分利用一阶邻近性约束节点对相似性。针对网络稀疏性问题,模型对非零元素重构施加更高权重。优化过程采用预训练和随机梯度下降,训练复杂度与节点数呈线性关系。该模型能处理新节点表示,但无法处理孤立节点。
2025-09-07 17:15:51
833
原创 图神经网络分享系列-SDNE(Structural Deep Network Embedding) (一)
摘要:本文提出结构深度网络嵌入方法SDNE,通过半监督深度模型解决网络表示学习中的非线性结构捕捉和稀疏性问题。该方法联合优化一阶邻近度(局部结构)和二阶邻近度(全局结构),利用多层非线性函数建模复杂网络特征。在语言网络、引文网络等五个真实数据集上的实验表明,SDNE在多标签分类、链接预测等任务中显著优于传统浅层模型,尤其在稀疏网络和标注数据不足时表现优异。这是首次将深度学习应用于网络表示学习的研究,为网络分析提供了新的解决方案。
2025-09-07 16:00:09
1209
原创 图神经网络分享系列-LINE(三)
本文介绍了LINE模型在大规模网络嵌入中的实验评估。实验覆盖语言网络、社交网络和引文网络三种类型,包含5个真实数据集(最大规模200万节点/10亿边)。研究比较了LINE与图分解、DeepWalk等方法的性能,结果显示:1)在语言网络中,LINE(2nd)在词类比任务上准确率最高(优于Skip-Gram);2)社交网络中LINE(1st+2nd)表现最优;3)引文网络上LINE(2nd)优于DeepWalk。实验验证了边采样优化策略的有效性,处理10亿边网络仅需3小时,且多线程加速比接近线性。结果表明一阶和
2025-08-22 16:17:03
654
原创 图神经网络分享系列-LINE(二)
摘要:本文深入探讨了LINE模型在大规模信息网络嵌入中的应用。该模型通过保留一阶邻近性(直接相连节点间的相似性)和二阶邻近性(共享相似邻居的节点间的相似性)来有效捕捉网络结构。针对优化计算复杂度高的问题,采用负采样和边采样技术提升效率,并讨论了对低度数顶点的处理策略。LINE模型能同时处理有向、无向和加权网络,具有线性时间复杂度,适用于超大规模网络嵌入任务。
2025-08-22 16:14:35
972
原创 图神经网络分享系列-node2vec(三)
本文介绍了node2vec图神经网络算法的实验验证与性能分析。通过《悲惨世界》人物网络实验,证明node2vec能同时捕捉网络同质性和结构等价性特征。在多标签分类和链接预测任务中,node2vec显著优于DeepWalk、LINE等基线方法,最高提升229.2%。研究还验证了算法对参数变化的敏感性、网络扰动的鲁棒性以及百万级节点的线性扩展能力。实验表明,node2vec通过灵活控制搜索参数(p、q)实现网络邻域的可控探索,为网络表示学习提供了兼具解释性和性能优势的解决方案。文章最后讨论了该算法在异质网络和深
2025-08-20 13:55:10
1029
原创 图神经网络分享系列-LINE(一)
本文提出LINE模型,用于解决大规模网络嵌入问题。传统方法难以处理百万级节点的网络,而LINE通过优化目标函数同时保留一阶和二阶邻近性,有效捕捉网络局部与全局结构特征。针对加权网络中梯度爆炸问题,提出边采样算法提升优化效率。实验表明,LINE在语言、社交和引文网络中表现优异,可高效处理数十亿边规模的网络。相比基于矩阵分解和随机游走的方法,LINE具有更明确的优化目标和更广泛的适用性(支持有向/无向、加权/无权图)。该模型为网络可视化、节点分类等任务提供了有效解决方案。
2025-08-20 13:54:52
1060
原创 图神经网络分享系列-node2vec(二)
本文系统阐述了node2vec算法的核心原理与实现框架。该算法通过设计灵活的随机游走策略,在广度优先搜索(BFS)和深度优先搜索(DFS)间取得平衡,有效捕捉网络中的同质性和结构等价性特征。文章详细解析了二阶随机游走机制,重点说明返回参数p和入出参数q对搜索偏置的调节作用,并论证了其在计算效率(O(1)采样复杂度)和空间效率(O(a²|V|))上的优势。最后介绍了节点对特征的扩展方法,包括均值运算、哈达玛积等二元操作符设计,为链接预测等任务提供表示学习支持。全文构建了完整的网络表征学习理论体系,为后续实验验
2025-08-18 15:01:14
1056
原创 图神经网络分享系列-node2vec(一)
本文介绍了图神经网络(GNN)研究的主要问题,重点解析了node2vec算法在节点分类任务中的应用。文章首先概述了GNN的九大研究方向,包括节点分类、链接预测等核心问题。针对节点分类任务,传统方法依赖人工特征工程且泛化性差,而node2vec通过设计有偏随机游走策略,在低维特征空间中灵活捕捉节点的局部和全局结构信息。实验表明,该方法在多标签分类和链接预测任务中表现优异,最高提升26.7%的性能,且具有计算高效、可扩展性强等优势。文章还探讨了node2vec的核心创新点及其在不同领域的应用价值。
2025-08-18 14:57:28
1170
原创 图神经网络分享系列-概览
图神经网络(GNN)是处理非欧几里得数据(如社交网络、分子结构)的重要工具,相比传统深度学习模型更适合建模复杂关系。GNN通过消息传递机制学习节点表示,在推荐系统、生物医药等领域具有广泛应用价值。非欧几里得数据指不规则的图、流形等结构,需用GNN、Transformer等特殊方法处理。掌握GNN技术对AI研究和职业发展都很有帮助。
2025-08-14 12:21:13
533
原创 推荐系统论文分享之多任务模型--PLE(二)
多任务学习(PLE)模型通过共享结构和参数实现多任务协同训练,提升泛化能力。其核心改进在于解耦共享/专属参数,采用渐进式分层提取机制,通过门控网络动态调节信息流。实践需解决梯度冲突、损失函数设计等优化难题,适用于推荐系统CTR、CVR等场景。工程实现要平衡计算开销,支持冷启动任务扩展。前沿方向包括跨域推荐适配和多模态改进,通过分层共享和对抗学习增强模型能力。PLE相比传统MTL和MoE架构,在负迁移问题和任务特异性处理上更具优势。
2025-08-13 23:28:16
873
原创 推荐系统论文分享之多任务模型--PLE(一)
摘要:本文深入探讨了多任务学习(MTL)中的关键挑战——"跷跷板现象",即优化某些任务会导致其他任务性能下降的问题。针对这一挑战,研究提出了渐进式分层提取(PLE)模型,通过显式分离共享组件与任务特定组件,采用渐进式路由机制逐步提取深层语义知识。PLE在腾讯视频推荐系统中的应用表明,相比现有MTL模型能显著提升2.23%的观看量和1.84%的观看时长。该模型通过多层次专家网络和门控机制,实现了更高效的联合表征学习,有效解决了任务间负迁移和性能退化问题,为复杂推荐系统提供了创新解决方案。
2025-08-13 17:41:14
1005
原创 面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d
通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。
2025-05-06 19:05:57
735
原创 面试常问系列(一)-神经网络参数初始化-之-softmax
Softmax的梯度对输入值敏感,过大输入会导致梯度消失。Transformer通过除以dk控制点积方差,确保Softmax输入值合理,从而保持梯度稳定,提升训练效率。这一设计是深度学习中处理高维数据时的重要技巧。
2025-05-06 18:15:48
1109
原创 面试常问系列(一)-神经网络参数初始化之自注意力机制
除以dk的本质是对点积结果进行方差归一化,确保Softmax的输入值不会随维度增大而失控,从而保持梯度稳定,提升训练效率和模型性能。这一设计是Transformer高效训练的关键细节之一。
2025-03-23 23:36:15
1417
原创 面试常问系列(一)-神经网络参数初始化
Xavier初始化解决的是饱和激活函数(sigmoid/tanh)\但是针对非饱和激活函数,relu等无效。那么针对于relu这种激活函数该怎么办呢?可以使用kaiming初始化。
2025-03-23 17:10:20
1334
原创 自编码/自回归/seq2seq 真的理解了吗?
宏观来讲,当今的天下,可以说是transformer的天下,今天下三分,分别是 自编码(Autoencoder),自回归(Autoregressive),和怎么理解呢?encoder(左派)自编码代表:bertseq2seq代表:bart自回归代表:gpt上面那个图大家看了可能就会首先有个宏观的了解,接下来,会稍微细节简单说一下,之后相关的文章也会跟进。
2024-03-25 23:45:15
1411
1
原创 排序指标解读-GAUC
AUC和GAUC其实是同一类物种,只不过GAUC是个更细心,会考虑到每一个人的更细心的物种,而AUC是更有全局观,以整体为主的物种。
2023-03-21 00:54:36
697
原创 第一章、part03-动态内存分配
动态内存分配存在的意义就是更高效的利用内存空间,简单来说,用多少给多少,而不是提前开辟很大的内存空间,但不用那么多,类似数组。动态分配出一片大小为N * sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,示例如下。动态分配出一片大小为sizeof(T)字节的内存空间,并且将该内存空间的起始地址赋值给P,如下。万物皆有轮回,有new来创建,对应的就有delete来释放。用new创建的内存空间,一定要用delete来释放掉!T 是任意的类型名, P 是T * 的指针。他们的返回值都是T*
2022-09-14 02:06:43
765
1
原创 第一章、part01-引用
类型名 & 引用名 = 变量名;上面这个写法就定义了一个变量名的引用。举个例子:int x = 0;此时 y 引用了x, y的类型是int &变量的引用就等价于这个变量,简单来说,y就是x的别名。举个代码例子,如下一目了然。
2022-09-11 21:00:41
857
1
原创 内容id生成器
1、背景首先个人理解,赋予一个背景,比如推荐系统中抖音里面,每天都有很多的作者去上传很多的视频,量级可能非常大,并且之前的视频也会累积,那么如何区分不同的视频内容呢,就是id了,类似于我们的身份证件,但是如何做到唯一标识呢?2、实现框架这个就会用到传说中的---雪花算法。雪花算法(Snowflake)是twitter公司内部分布式项目采用的ID生成算法,开源后广受国内大厂的好评,在该算法影响下各大公司相继开发出各具特色的分布式生成器。名字很高大上哈,其实很简单,看下面这张图片,就是雪
2022-03-26 17:18:39
1480
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅