巴拉巴拉朵-CSDN博客

原创大语言模型基础

但是[MASK]这个token并不在fine-tuning阶段出现，为了缓解预训练和精调之间这种不一致，预训练在mask的时候并不总是用[MASK]这个token代替，80%的概率用[MASK]代替，10%的概率随机选择一个token代替，10%的概率就用原来的token不做替换。BERT是双向的Self-Attention，既可以看到前面的token，也可以看到后面的token，BERT的目标与GPT不一样了，GPT是根据前面的词预测后面的词，BERT是根据前后的词预测当前位置的词，类似于完形填空。

2024-07-07 14:01:20 998

原创优势特征蒸馏：阿里PFD

ctr&cvr预估任务中有很多非常有区分性的特征没法使用，比如用户点击之后的互动时长、点击之后的一些页面动作信息，因为只有离线训练的时候能拿到，线上预估的时候是拿不到的，为了保持线上和线下的一致性，这些“优势特征”(Privileged Features)就会被忍痛割爱舍弃掉。通过蒸馏的方式，teacher模型的特征输入包含了优势特征，teacher模型和student模型结构一样，只是特征输入不同，teacher模型将学习到的信息蒸馏迁移到student模型。，teacher的模型参数。

2024-03-12 20:41:36 1239

原创微软多兴趣召回：Octopus

其实说的更简单点，2 个问题：就是多兴趣召回里面，不同用户产出的多个兴趣数量是固定的，没有个性化；每个兴趣向量召回的 topK 个候选，没有考虑不同兴趣的重要度即如何实现个性化的兴趣数量、如何实现根据兴趣重要度去个性化选择候选数量。

2024-03-04 21:19:01 1058

原创多场景建模：美团HiNet

SAN整体上也是个MoE结构，但是gate网络的输入是场景ID，也就是利用场景ID来选取不同的特征输出，使用优势特征对输入进行选择。这个结构还是比较明确的，实践也比较容易，值得尝试下。核心的是SEI结构，其实就是MoE。通过分层来分别学习多场景多任务。

2024-01-29 17:56:42 809

原创多场景建模：腾讯3MN

第二个挑战由场景任务自适应主干网络及分类器解决，主干网络利用场景任务信息抽取分场景的任务特有、任务共享特征，场景自适应分类器利用这些特征提升分场景的多任务预测性能。以往的每个特征在Embedding层都映射到一个固定维度的特征向量上面，这里为了场景自适应匹配维度，设计了根据场景来选择合适的维度。是由元网络得到的，而元网络的输入是场景特征，因此能做到场景自适应的选择不同Embedding维度。是场景自适应的，也是由元网络得到的，元网络的输入是场景信息和任务信息。然后任务特有的专家和任务共享的专家。

2024-01-29 11:20:17 1119

原创多场景建模：阿里MARIA

引入Feature Scaling（FS）根据场景来缩放特征，放大重要特征，缩小不重要特征（类似SeNet）引入Feature Refinement（FR）每个特征域设置一组特征微调器（Refiner），然后基于场景感知的gate网络（Selector）来进行选择（类似于MoE）引入Feature Correlation Modeling（FCM）对每个特征域进行显示交叉（类似PNN）

2024-01-25 20:42:06 1237

原创多场景建模：快手参数及Embedding个性化网络PEPNet

通过输入的个性化先验信息通过gate机制动态缩放底层的Embedding参数以及上层的DNN隐层参数

2024-01-24 14:52:47 2216

原创多场景建模：阿里多场景多任务元学习方法M2M

广告领域大部分是针对用户建模的，像点击率预估，很少有针对广告主需求建模（广告消耗预估、活跃率/流失率预估、广告曝光量预估），广告的类型较多（搜索广告、展示广告、实时流广告），广告主在不同场景类型上面的行为也不同，这篇文章就是针对广告主建模的。经过reshape后得到，这样不同场景meta unit里面的主网络FCN权重是不一样的，通过这样的动态权重做到场景的个性化。引入了meta unit，融合丰富的场景知识来学习显示的场景之间的相关性，这样可以很方便的扩展到新场景。

2024-01-22 22:35:06 1246

原创多场景建模：阿里STAR

阿里提出了Partitioned Normalization、Star Topology FCN、Auxiliary Network应用到多场景建模，在各个场景上面取得不错的效果。

2024-01-16 09:59:16 1671

原创序列建模简史(DIN/DIEN/DSIN/BST/MIMN/SIM/ETA/SDIM/TWIN)

DIN的结构图如下DIN通过引入attention来解决用户表征向量和目标广告的自适应匹配。使用attention机制来表达用户的动态兴趣，可以表示如下vUAfvAe1e2eH∑j1HattentionejvA∑j1HwjejvUAfvAe1e2...eHj1∑HattentionejvAj1∑Hwjeje1e。

2023-08-05 15:22:32 931

转载【转载】快手用户序列建模TWIN

然后引出两阶段框架下的核心问题：两阶段目标（相似性度量标准）不一致，GSU很容易筛选出相关性不高的item，浪费了计算资源，偏离了用户的兴趣。SIM是明显的两阶段，ETA和SDIM是端到端的，两阶段的emb也是一样的，但是只是用GSU的LSH去近似ESU的Target Attention，因此仍然存在不一致性。

2023-08-02 10:25:54 594

原创美团用户序列建模SDIM

本文提出的SDIM(Sampling-based Deep Interest Modeling),基于采样的端到端的方法来建模长期用户行为序列。从多个hash函数中采样产生候选物料和用户序列行为的hash签名，然后直接聚合具有和候选物料相同的hash签名的行为序列，得到用户的长期序列兴趣向量。

2023-08-01 23:22:00 574

原创阿里用户序列建模ETA

长序列用户建模的两阶段方法存在两个问题，首先是目标不一致，第一阶段目的是找到和目标物料相似的用户序列行为，第二阶段是尽可能的准确建模点击率；其次，第一阶段和第二阶段的更新频率不同，第一阶段是离线构建索引，然后导入到线上，第二阶段是参与在线训练。受Reformer的启发，我们提出了一种称为 ETA（End-to-end Target Attention）可以大大降低训练和推理成本，并端到端训练长期用户行为序列。

2023-07-31 23:15:35 470

原创阿里用户序列建模SIM

MIMN是工业解决方案中第一个可以对用户序列长度达到1000的数据进行建模。但MIMN无法精确捕获给定用户兴趣的特定候选项目时，长度为用户行为序列进一步增加，比如增加10倍或更多。本文提出的基于搜索的兴趣模型(SIM)通过两个级联搜索单元提取用户兴趣:(i)泛搜单元GSU(General Search Unit)负责从原始序列泛搜任意长的顺序行为数据，并获得相关的子用户行为序列(SBS)(ii)**精搜单元ESU(Exact Search Unit)**对候选物料和SBS之间的精确关系进行建模。

2023-07-31 13:13:57 724

原创阿里用户序列建模MIMN

对于序列建模，实践了机器学习算法与在线服务协同设计的CTR预测系统，理论上可以处理无限长的用户序列。从服务系统的角度来看，通过设计一个单独的模块用户兴趣中心UIC(User Interest Center)，将用户兴趣模型中最消耗资源的部分与整个模型解耦。UIC维护最新的兴趣状态，对于每个用户，其更新取决于实时的用户行为触发事件，而不是流量请求，因此UIC是无延迟的实时CTR预测。来自机器学习算法角度看，提出了一种新的基于内存的架构，命名为多通道用户兴趣记忆网络MIMN

2023-07-30 17:35:12 891

原创华为FinalMLP

Two-Stream model：因为一个普通的MLP网络不足以学到丰富的特征交叉信息，因此大家提出了很多实用MLP和其他专用网络结合来学习。MLP是隐式地学习特征交叉，当前很多工作主要在另外一个stream中显式的增强特征交叉。本文提出的两个stream都用MLP网络，训练的好一样能达到惊人的效果。而且提出的可插拔式使用的特征选择层和交叉融合层，可以得到性能更强的two-stream MLP模型。

2023-05-28 16:46:21 1149

原创 GPT笔记

采用两阶段法，第一阶段无监督预训练，第二阶段针对不同的任务进行有监督地精调。预训练阶段GPT使用Transformer的decoder结构。

2023-05-12 20:12:14 543

原创阿里EGES

主要思想是根据用户交互的物料作为节点构建物料图，在传统的DeepWalk学习节点Embedding的基础上，使用attention融合节点的side information，使得学习到的物料Embedding包含更丰富、精准的信息。因为自然语言处理中，句子中的词汇的分布是幂律分布，少量的词大量使用，有大量的长尾词汇。而一个现实的图中，也是少量的节点有大量的连接（度），大部分节点的度比较少，二八定律也非常明显，因此随机采样的节点序列也是符合幂律分布的，因此可以套用。的负采样，可以得到优化目标的详细形式。

2023-04-24 23:05:16 850

原创微博FiBiNET: Combining Feature Importance and Bilinear feature Interaction for CTR Prediction

实际的推荐系统，有大量的特征Embedding因为样本数据极度稀疏，没法学习的很好，如果我们一股脑把所有特征都作为输入塞进炼丹炉，那必然会引入噪音导致推荐效果不佳。在炼丹之前，如果能对炼丹材料各个特征Embedding进行挑选，对特征Embedding做重要性打分，然后根据重要程度来塞进对应的特征，效果必然会有所提升。其实SeNet的做法就是对特征做attention操作，动态找出重要的特征，可以说是判别特征重要性的神器。对每个特征的精华值进行非线性变换，得到每个特征的重要性得分。

2023-04-20 22:58:24 110

原创美团DAT：A Dual Augmented Two-tower Model for Online Large-scale Recommendation

怎么尽早实现user塔和item塔的交叉是个让大家都想破脑袋的事，腾讯的MVKE通过全局向量作为桥梁，一桥架起双塔，实现早期的user塔和item的交叉，在实际业务中落地效果不错，美团的DAT通过在user塔和item塔分别构造一个增强向量，user塔的增强向量作为user塔输入的一部分，去学item塔的输出，item塔的增强向量作为item塔输入的一部分，去学user塔的输出，从而实现user塔和item塔的交叉。，也就是item塔的信息实际上成为了user塔输入的一部分，item塔也是同样的操作。

2023-04-19 23:16:37 1426

原创论文《Where to Go Next for Recommender Systems? ID- vs.Modality-based recommender models revisited》

论文核心议题是：通过sota的多模态encoder得到的item Embedding，纯基于多模态的模型MoRec(modality-based recommendation model)能否比纯基于ID的模型IDRec(e ID-based model)效果好？

2023-04-04 15:27:04 729

原创 Shallow tower 消偏

谷歌的这篇论文有个亮点就是消偏的处理，论文就是要解决2个问题：一是多目标建模，而是选择偏差消解。

2023-03-29 18:45:17 481

原创多任务学习综述Multi-Task Deep Recommender Systems

多任务学习相比单个任务的好处有2个，一是多个任务对数据的利用增强了各个任务学习的表现，二是在计算和存储上面有更高的效率。同时多任性也面对三个挑战，一是不同的任务必须获取到有用的信息，二是数据稀疏性问题，例如转化率问题，三是独特的序列依赖，例如各个任务中存在的用户行为依赖。

2023-02-19 00:10:09 2726

原创双塔多目标MVKE

MVKE论文中是给用户打tag标记，构建用户画像。使用的也是经典的双塔模型，另外在双塔的基础上面叠加了ctr和cvr的多个目标。但是论文最大的创新点是在用户塔做了有意思的处理，通过类似MMoE的方式引入多个Experts，同时引入一组全局兴趣向量（类似于一级类目的用户兴趣，只不过隐式的，和实际的一级类目没有明确的一对一关系），通过attention机制学习用户每个特征field和全局兴趣向量的关系，然后经过expert网络变换后输出，多个expert输出的向量经过一个gate网络，gate网络也是通过att

2023-02-16 23:26:48 1082

原创多任务模型PLE：Progressive Layered Extraction

相较于MMoE（所有任务用到的expert没有区别），PLE将expert分成了2种，一种是特定任务相关的，一种是所有任务共享的。这种设计避免了expert之间参数共享的相互干扰，每个任务都有自己的expert组，可以集中精力学习本任务独特的一些信息，同时每个任务自己的gate网络也能从共享的expert组中汲取信息，获得更多的信息增益。

2023-02-04 19:39:02 1342

原创多任务模型SNR：Sub-Network Routing for Flexible Parameter Sharing in Multi-Task Learning

SNR通过将共享参数层拆分为包含多个子网络的层，各个子网络之间的连接通过二值编码变量来控制连接，一方面增加各个子网络之间的交互，一方面减少总的参数量。另外通过引入随机变量来替换二值不连续编码变量等转换方式来优化模型；还通过L0来大幅减少参数量。总之，是比MMoE更加细粒度的一种多任务学习方法。

2023-02-01 21:42:29 841

原创论文《An Effective Consistency Constraint for Sequential Recommendation》

这篇文章提出了序列推荐建模中一种有效的一致性约束防范，不用修改模型结构，仅仅添加2个额外的损失函数，就能达到非常好的效果。不像基于对比学习的方法，需要较好的负采样方法、数据增强方法、较重的超参数调优方法，论文提出的方法简单有效。新的损失函数不挑模型，可以在广泛使用的sota模型上面增加，具有通用性。

2023-01-08 18:56:59 646

原创 SINE多兴趣召回

SINE多兴趣召回笔记

2023-01-04 21:45:16 549

原创多兴趣向量重构用户向量

一般的多兴趣建模过程是对用户序列进行编码，抽取出用户的多个兴趣向量，然后利用这些用户兴趣向量进行下一步候选集选取。不论是MIND还是ComiRec-SA，抽取多兴趣的过程没有保证多个兴趣向量的差异性，也没有保证兴趣向量的相关性和推荐系统的误差是一致的。

2023-01-02 18:00:01 656

原创显式利用用户画像的多兴趣建模

目前在多兴趣建模中，用户侧的特征包括用户基础画像特征（年龄、性别、地域等）、用户在当前场景的静态兴趣画像特征（短期兴趣画像、长期兴趣画像）、交互的历史正向行为序列特征（正向物料id序列、正向物料类目序列、正向行为间隔序列等）。经过多兴趣编码之后，产生的多个兴趣向量，需要再度与用户画像进行兴趣精调，即用产生的兴趣向量和用户画像向量再次计算相关性，对相关性高的兴趣进行强化。

2023-01-02 15:26:56 641 1

原创多兴趣建模中兴趣向量多样性度量

多兴趣建模（例如Mind、SINE、ComiRec）过程中，通常会产生多个用户兴趣向量，同一个用户的多个兴趣向量在空间中应当相距足够远

2022-12-22 22:50:21 473

原创论文《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》

19年阿里这篇推荐论文也是紧贴热点，将Transformer应用到提取用户序列上面，提出Transformer Layer，提取用户序列信息。

2022-08-14 21:55:52 431

原创论文《Controllable Multi-Interest Framework for Recommendation》

阿里的ComiRec是对多兴趣召回的一个阶段性总结。多兴趣抽取模块总结了2种方法：一个是之前应用到MIND的Capsule Network，一个是Self-Attention

2022-08-14 18:07:09 557

原创论文《Deep Multifaceted Transformers for Multi-objective Ranking in Large-Scale E-commerce Recommender》

论文提出用多个Transformer对用户多种类型的行为序列进行建模，在此基础上叠加MMOE建模多目标，最后使用一个消偏塔对数据进行消偏

2022-07-27 23:31:16 558

原创论文《Deep Interest Evolution Network for Click-Through Rate Prediction》

摘要里面表示很多CTR模型都将用户历史行为的向量表示直接作为用户兴趣，没有对用户这些行为背后的隐兴趣进行建模；此外很少有工作考虑用户的兴趣的变化趋势。DIEN设计了兴趣抽取层从历史行为序列中捕获用户隐式兴趣，设计了兴趣进化层建模用户兴趣变化。简介中，介绍前人工作多是关注不同特征域的特征交叉，很少关注用户兴趣表示，DIN使用attention机制来捕获用户不同兴趣和目标item的相关性，但是这些模型都是将历史行为序列直接当做用户兴趣，没有去挖掘这些行为序列背后的用户真正的兴趣，而且用户兴趣是变化的，捕获用户动

2022-06-11 23:22:18 293

原创论文《Deep Interest Network for Click-Through Rate Prediction》

DIN模型论文地址：https://arxiv.org/pdf/1706.06978.pdf提出DIN模型的原因：当前CTR预估都是Embedding&MLP结构：高维稀疏输入特征按照特征组先映射成低维固定长度的embedding向量，然后拼接起来，喂给MLP网络中进行训练。这里面用户的向量表示因为是有限的固定长度，很难表示用户的多个兴趣。而在电子商务网站里面，用户可能同时对多个商品感兴趣。在Embedding&MLP框架里面，用户的多个兴趣被压缩成一个固定有限长的向量，其实表达能力

2022-05-14 19:30:18 627

原创论文《Self-Attentive Sequential Recommendation》

论文地址：https://arxiv.org/pdf/1808.09781.pdfSelf-Attentive Sequential RecommendationSASRec是较早应用Self-Attention到序列推荐中的模型，目前作为序列SOTA的baseline，应用十分广泛。在工业界也是很早就大规模落地，取得的效果也是非常显著，在SASRec基础上面进行改进的工作很多，包括后面引入对比学习，加入其他side info，以及加入双向Transformer结构等等。摘要序列模型一般是由马尔科夫

2022-05-09 20:48:34 1078

原创 Attention机制

论文地址：all you need is attentionAttention可以参阅网上其他大佬的详细解读，下面这篇从序列模型RNN和CNN与Attention的多角度比较来解读，详细分析了论文中采用Attention的结构及position embedding的来由，非常值得一看。一文读懂「Attention is All You Need」| 附代码实现这里有一些关于论文部分细节的讨论Attention Is All You Need 每周论文一起读这篇文章详细讲解了Encoder和De

2022-04-18 22:52:33 736 1

原创论文《Contrastive Learning for Sequential Recommendation》

论文地址：https://arxiv.org/abs/2010.14395摘要序列推荐经常因为数据稀疏性问题，导致很难学习到高质量的用户向量表示。论文引入对比学习，提出Contrastive Learning for Sequential Recommendation(CL4SRec).，不仅有下一个序列预测的优势，还利用对比学习框架从原始用户行为序列中获取自监督信号。另外论文提出3种构造自监督信号的数据增强方法，在4个公开数据集上面大量实验表明得到的用户表示更好。简介序列推荐任务能捕捉用户动态的兴

2022-04-10 22:41:31 4673 9

原创论文《Embedding-based Retrieval in Facebook Search》

论文地址：https://arxiv.org/abs/2006.11632摘要Facebook搜索作为社交网络搜索与传统的Web搜索挑战不同，在提供结果时考虑用户的上下文非常重要。论文提出基于embedding的向量检索应用到社交网络搜索，主要贡献如下：提出用于个性化搜索的统一的embedding框架，以及基于传统倒排索引的搜索系统中使用基于embedding的检索服务系统。在整个系统的端到端的优化中，提出了各种trick及经验，包括ANN参数调优、full-stack优化。…简介最近几十

2022-04-05 11:41:48 663

sgi标准资源

wtl71文件夹

C++网络编程之TCP实例

官方zlib可以直接使用

文件记录逆排序

空空如也