自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(129)
  • 收藏
  • 关注

原创 推荐模型中的维度坍塌&兴趣纠缠(KDD‘2024)

维度塌缩:编码过程会将所有的特征映射到embeddings,然后在模型训练的时候会对这些embeddings进行学习。然后,论文发现许多特征embeddings会塌缩到低维的子空间,而不是完全地利用到完整的K维空间。这个问题不仅导致了参数的浪费,还会限制了模型的扩展性兴趣纠缠:在推荐/广告系统中,用户的反馈取决于复杂的潜在因素,特别是在多任务和多场景的联合训练中。目前的主流方法都是使用共享的embeddings,这使得无法充分地拆分这些影响因素,因为每个特征是依赖于单个纠缠的embeddings。

2025-02-05 16:10:10 611

原创 推荐模型中辅助排序损失的作用(KDD‘2024)

在搜广推系统中,CTR预估无疑是一个关键的研究领域,二分类交叉熵(BCE,binary cross entropy)是最为广泛使用的应对二分类问题的优化目标,非常贴合CTR预估任务。但是,最新的研究已经表明**BCE loss结合辅助的ranking loss能够显著地提升效果**:

2025-01-26 16:54:10 604

原创 CTR之行为序列建模用户兴趣:Temporal Interest Network(WWW‘2024)

用户的行为可以反应出其对候选item的兴趣,归因于它们的语义或者时序相关性。然而,这些文献尚未结合起来去分析这两种相关性,即语义-时序相关性。论文通过实验来衡量这种相关性,并观察到了直接而健硕的模型,但是主流的用户兴趣模型都无法很好地学习到这种相关性。因此,为了填充这个gap,论文提出了Temporal Interest Network (TIN)来同时捕获用户行为与target之间的时序-语义相关性,通过引入target-aware的时序编码和语义编码来表征行为和target

2024-11-20 20:54:08 753

原创 多场景多任务建模(四): PEPNet(Parameter and Embedding Personalized Network)

PEPNet将**带有个性化先验信息的特征作为输入,通过门控机制,来动态地缩放底层网络-embedding layer和顶层网络-DNN隐藏层单元**,分别称之为场景特定的EPNet和任务特定的PPNet

2024-11-05 21:44:08 836

原创 多场景多任务建模(三): M2M(Multi-Scenario Multi-Task Meta Learning)

M2M是针对多任务多场景业务而提出的框架,能够建模不同task与特征的关联的同时,引入场景知识来捕获场景间的关联:1、底层的backbone network采用MTL结构+transformer layer2、M2M提出了应对多任务多场景的高效的元学习机制:- meta unit作为其中的基础组件,为不同场景产生动态的参数- meta attention模块注入场景知识(meta unit)来为task计算不同场景下的多个experts的注意力分数

2024-10-16 21:43:17 1100

原创 多场景建模(二): SAR-Net(Scenario-Aware Ranking Network)

多场景建模与多任务学习存在相似的思想,比如本文的SAR-Net的最顶层便是与PLE非常相似,由场景特定专家与共享专家加权组合。- 相较于STAR,一个批次样本需要是同一个场景的,SAR-Net- 则显得更加灵活了,除了专家层之外,同样有着许多场景特定的参数- 并且SAR-Net还加入了干预偏差的矫正训练,适用了电商类的促销场景- SAR-Net在用户历史行为序列与target item的注意力模块之外,还创新地增加了一个场景上下文的注意力模块,更多地利用历史行为序列中的场景上下文信息。

2024-09-09 20:46:14 828

原创 多场景建模: STAR(Star Topology Adaptive Recommender)

针对多场景任务建模,STAR提出了几个有效的组件来探索场景之间的关联和捕获不同场景的区别/特性:- Partitioned Normalization:基于场景分区的标准化- Star Topology FCN:组合共享中心参数和场景特定参数,对应场景样本更新场景特定参数- 辅助网络:场景特征更直接地去影响最后的预估

2024-08-30 21:21:19 1526

原创 多任务学习MTL模型:多目标Loss优化策略

多任务学习还存在另外一些棘手的问题:**1、不同task的loss量级不同,可能会出现loss较大的task主导的现象**(loss较大的task,梯度也会较大,导致模型的优化方向很大程度上由该task决定);**2、不同task的学习速度不同,有的慢有的快;****3、不同的loss应该分配怎样的权重?直接平均?如何选出最优的loss权重组合?**

2024-08-29 21:39:31 2057

原创 基于二叉树的近似最近邻搜索-Annoy

- annoy是一种基于二叉树的近似最近邻搜索算法,可以在牺牲小部分精度的前提下,大大提升搜索性能。在推荐系统、搜索系统以及LLM-RAG的相似文档召回等领域都存在着广泛的应用- 并且annoy是一种可以在自己电脑快速学习上手和验证效果的工具。

2024-08-15 20:59:23 991

原创 LLM(大语言模型)「Agent」开发教程-LangChain(三)

1. 这篇文章我们介绍了Agent这个热门的概念,以及它是如何依托LLM的function call来实现的2. 接着,再展示了借助LangChain的封装来简化这个开发过程,3. 并且还介绍了另外一种不依赖function call的Agent实现。

2024-08-06 20:29:52 1497

原创 基于LangChain的RAG开发教程(二)

RAG(Retrieval Augmented Generation,检索增强生成):在生成过程中,外部的数据会通过检索然后传递给LLM,让LLM能够利用这些新知识作为上下文

2024-07-08 21:12:16 1484

原创 LangChain入门开发教程(一):Model I/O

LangChain是一个能够利用大语言模型(LLM,Large Language Model)能力进行快速应用开发的框架:高度抽象的组件,可以像搭积木一样,使用LangChain的组件来实现我们的应用集成外部数据到LLM中,比如API接口数据、文件、外部应用等;提供了许多可自定义的LLM高级能力,比如Agent、RAG等等。

2024-05-29 21:14:25 1530 1

原创 CTR之Session行为序列建模用户兴趣:DSIN

1. DSIN认为在推荐系统中,用户的行为序列是由多个历史sessions构成,在不同的session中展现了不同的兴趣;2. 然后,使用多头注意力来捕获session行为的内存相关性,并且提取每一个session兴趣3. 另外,用户的session兴趣是序列化的,并且彼此相关联,因此用适合序列结构的双向LSTM来捕获session之间的交互和session兴趣的变化;4. 最后再使用注意力机制来激活那些与target item更为相关的session兴趣;

2024-03-25 21:06:03 930 1

原创 CTR之行为序列建模用户兴趣:DIEN

在CTR模型中,**通过用户的行为数据捕获用户的潜在兴趣是非常重要的**。另外,考虑到外在环境和内在认知的变化,**用户的兴趣是随着时间在动态演变的**。

2024-03-12 21:05:33 1439

原创 CTR之行为序列建模用户兴趣:DIN

这篇论文是阿里2017年发表在KDD上,提出了一种新的CTR建模方法:Deep Interest Network (DIN),它最大的创新点是引入了局部激活单元(local activation unit,其实是一种Attention机制),对于不同的候选item,可以根据用户的历史行为序列,动态地学习用户的兴趣表征向量。

2024-02-20 21:03:02 1207 1

原创 如何实现TensorFlow自定义算子?

tensorflow自定义算子的完整实现过程。

2023-12-18 22:11:55 970 1

原创 Embedding压缩之基于二进制码的Hash Embedding

基于二进制码的hash embedding,该方法兼具了调整embedding存储的大小的灵活性和尽可能保留模型的效果

2023-12-12 20:49:28 481

原创 Embedding压缩之hash embedding

在推荐系统中,特征Embedding是极其重要的一部分,并且占了模型体积的大头,消耗巨大的显存,因此如果可以对特征Embedding进行压缩,那么是可以节省许多计算资源的。因此,这篇文章的主题便是Embedding压缩,而embedding hash便是一种实用的手段。

2023-11-30 20:50:06 788

原创 CTR特征建模:ContextNet & MaskNet(Twitter在用的排序模型)

微博在CTR特征(Embedding)重要性建模方面的一些实践方向,今天再来学习下这个方面的两个相关研究:致力于特征和特征交互精炼(refine)的ContextNet和MaskNet,其中MaskNet也是Twitter(推特)使用的精排模型底座。

2023-10-10 20:54:51 897

原创 AI绘画Stable Diffusion原理之扩散模型DDPM

1. DMs在训练阶段逐步为干净的图片加入高斯噪声,并去拟合这个噪声,而在采样生成(推理)阶段则是由随机的噪声开始,逐步预测噪声然后去去噪,直至得到高质量的图片,而这主要是通过DDPM来实现;2. LDMs则是在DMs的基础上引入了Autoencoder能够将图像从像素空间压缩到隐空间,极大提升计算效率;3. 并且LDMs还具有引入文本控制条件的建模能力,通过UNet与文本表征进行注意力交叉,实现文生图的能力。

2023-09-14 22:17:16 1178 1

原创 AI绘画Stable Diffusion原理之VQGANs/隐空间/Autoencoder

AI绘画,输入一段文本就能生成相关的图像,其中stable diffusion是这些技术背后的重要骨架思想,这个系列的文章就是对stable diffusion的原理学习(“文生图”[text to image])。

2023-07-26 20:27:57 1994 1

原创 “设计模式”概述

| 1️⃣[组件协作](#组件协作) | Template Method模式|Strategy 策略模式|Observer 观察者模式|| 2️⃣[单一职责](#单一职责) | Decorator 装饰模式|Bridge 桥模式|| 3️⃣[对象创建](#对象创建) | Factory 工厂模式|Abstract Factory|Prototype 原型模式|Builder模式|Singleton 单例模式|Flyweight 享元模式|| 4️⃣[接口隔离](#接口隔离) | Facade 门面模式

2023-07-05 21:43:48 606

原创 CTR预估之Wide&Deep系列(下):NFM/xDeepFM

介绍两种同属这种框架的模型,但改进的不是wide部分,其中NFM(Neural Factorization Machines)是对deep部分的改进,而xDeepFM(eXtreme Deep Factorization Machine)则是引入新的子网络。

2023-06-19 21:53:52 500

原创 CTR预估之Wide&Deep系列模型:DeepFM/DCN

Wide&Deep,即同时加入低阶特征组合交互的线性模型-Wide、高阶特征交叉的深度模型(Deep),Wide部分模型提供模型的记忆能力,而Deep部分提供模型的泛化能力。这是Wide&Deep系列模型很重要的一个点。

2023-06-13 20:34:25 755

原创 CTR预估之DNN系列模型:FNN/PNN/DeepCrossing

FMs模型是由线性项和二阶交互特征组成,虽然有自动学习二阶特征组合的能力,一定程度上避免了人工组合特征的问题,但却缺少高阶的特征组合,这篇文章的主题则是介绍deep neural networks (DNNs)下的ctr模型,能够自动学习高阶特征组合模式。

2023-05-25 21:39:45 1505 3

原创 CTR预估之FMs系列模型:FM/FFM/FwFM/FEFM

搜广推系统一般包括召回和排序,ctr预估一般应用于排序阶段。而像推荐系统,一个鲜明的特点就是数据极特别稀疏。下面,我们会持续学习那些针对稀疏数据的ctr任务而提出的模型,这篇文章则主要是关于FM系列

2023-05-11 20:51:22 2191 1

原创 ctr特征重要性建模:FiBiNet&FiBiNet++模型

**FiBiNET**(Feature Importance and Bilinear feature Interaction NETwork)为推荐系统的CTR模型提出了一些创新方向:- **引入一个SENet模块,可以动态学习特征的重要性;**- **引入一个双线性模块(Bilinear-Interaction layer),来改进特征交互方式。**

2023-04-25 20:32:52 1432

原创 多兴趣推荐召回模型:ComiRec

1. 论文指出了推荐召回模型中单个用户兴趣向量的弊端,提出一种可以提取多个用户兴趣向量的模型ComiRec,包括两种多兴趣提取模块:**Dynamic Routing**和**Self-Attentive Method**,对应的模型分别为ComiRec-DR和ComiRec-SA;2. 提出一种新的对用户多个兴趣向量召回结果的聚合方法(Aggregation Module),指出推荐系统可控性的重要性(论文中主要体现了推荐的多样性控制);

2023-04-23 20:51:25 1523

原创 多兴趣推荐召回模型:MIND

Multi-Interest Network with Dynamic routing (MIND) ,能够提取多个用户兴趣向量,更好地捕捉用户多方面的兴趣。

2023-03-17 22:02:33 1895

原创 BERT模型系列大全解读

本文讲解的BERT系列模型主要是**自编码语言模型**-AE LM(AutoEncoder Language Model):通过在输入X中随机掩码(mask)一部分单词,然后预训练的主要任务之一就是根据上下文单词来预测这些单词,从而得到的预训练语言模型。

2023-02-22 21:25:59 3274 2

原创 分类模型-类别不均衡问题之loss设计

数据类别不均衡是很多场景任务下会遇到的一种问题。针对这种类别不均衡的场景设计一种loss,能够兼顾数据少的类别,这其实是一种更理想的做法,因为不会破坏原数据的分布,并且不会带来性能问题

2022-11-11 18:00:00 1808

原创 深入浅出地理解Youtube DNN推荐模型

通过YouTube推荐模型来了解推荐的流程、召回模型的本质、负采样的注意事项、为什么召回要分成离线training和在线serving?为什么在线serving可以用Faiss这样的工具来代替?

2022-09-27 20:55:46 1423 1

原创 炼丹系列2: Stochastic Weight Averaging (SWA) & Exponential Moving Average(EMA)

EMA(Exponential Moving Average)全称为指数移动平均,主要作用是平滑模型权重,平滑可以带来更好的泛化能力。简单的在常规的SGD过程中,对多个权重点进行平均,这种方法称为Stochastic Weight Averaging(SWA),可以比传统的训练的到更好的泛化能力。

2022-08-24 20:50:27 1600

原创 炼丹系列1: 分层学习率&梯度累积

深度学习trick:变量初始化、分层学习率、梯度累积

2022-08-13 19:30:00 1020

原创 BERT句向量(一):Sentence-BERT

前言句向量:能够表征整个句子语义的向量,目前效果比较好的方法还是通过bert模型结构来实现,也是本文的主题。有了句向量,我们可以用来进行聚类,处理大规模的文本相似度比较,或者基于语义搜索的信息检索。例如搜索系统中的输入query和匹配文档document、Q&A任务的问题和答案等等,都可以转化为计算两个句子的语义相似/相关度,相关度最高的n个作为模型的返回结果。题外话这种类似的模型一般称为passage retrieval models,即段落检索,有两个代表:sparse model

2022-04-26 09:30:00 13085

原创 TensorRT&Triton学习笔记(一):triton和模型部署+client

前言先介绍TensorRT、Triton的关系和区别:TensorRT:为inference(推理)为生,是NVIDIA研发的一款针对深度学习模型在GPU上的计算,显著提高GPU上的模型推理性能。即一种专门针对高性能推理的模型框架,也可以解析其他框架的模型如tensorflow、torch。主要优化手段如下:Triton:类似于TensorFlow Serving,但triton包括server和client。triton serving能够实现不同模型的统一部署和服务,提供http和grpc协

2022-03-17 09:00:00 22966

原创 多任务学习模型MTL: MMoE、PLE

常见的监督学习包括:回归:预测值为连续值,如销售额;二分类:预测值为离散值,且只有两种取值,如性别,要么是男,要么是女;多分类:预测值为离散值,且多于两种取值,如动物分类,可能有猫、狗、狮子等等;还有另外一种,也是本文的主角:多任务学习(Multi Task Learning)。MTL介绍首先,介绍什么是多任务学习,例如之前文章提到的微信视频场景,同时包含多个学习目标(task):是否转发、是否点赞、是否关注等。微信大数据挑战赛以往的做法可能会对不同的task分别建立对应的模型,但这样会

2021-10-25 19:00:00 10613

原创 TensorFlow Serving:深度学习模型在生产环境的部署&上线

TensorFlow Serving简单来说就是一个适合在生产环境中对tensorflow深度学习模型进行部署,然后可以非常方便地通过restful形式的接口进行访问。除此之外,它拥有许多有点:支持配置文件的定期轮询更新(periodically poll for updated),无需重新启动;优秀的模型版本控制;支持并发;支持批处理;基于docker,部署简单。(这些优点我们在下面会逐一提到)安装官方极力推荐通过docker的方式进行安装,所以,首先我们需要进行docker的

2021-09-07 21:53:55 4552 2

原创 强大的向量数据库:Milvus

在推荐系统中,向量的最邻近检索是极为关键的一步,特别是在召回流程中。一般常用的如Annoy、faiss都可以满足大部分的需求,今天再来介绍另外一个:MilvusMilvusMilvus不同于Annoy、faiss这类型的向量检索工具,它更是一款开源向量数据库,赋能 AI 应用和向量相似度搜索。涉及的术语Filed:类似表字段,可以是结构化数据,当然还可以是向量;Entity:一组Filed,类似表的一条数据;Collection:一组Entity,类似于表;亮点Milvus不单单是向.

2021-09-01 21:50:59 7982 1

原创 推荐系统的向量检索工具: Annoy & Faiss

在推荐系统的召回阶段,如Youtube DNN和DSSM双塔模型,向量的最邻近检索是必不可少的一步。一般的做法不会让模型在线预测召回,而是先离线将向量存储,然后在线上进行向量的最邻近检索,作为模型的召回。这篇文章将介绍两个常用的向量最邻近检索工具:Annoy和Faiss。AnnoyAnnoy Github安装pip install annoy支持的距离度量Annoy仅支持树结构的索引类型。欧式距离euclidean内积dot汉明距离hamming两个二进制字符串的距

2021-08-23 21:46:54 2685

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除