搜索推荐广告系统
文章平均质量分 92
FesianXu
腾讯-微信事业群-高级算法工程师, 百度-搜索策略部-前高级算法工程师。 主要从事多模态检索、视频检索、信息检索,大模型落地应用等领域工作。
展开
-
LexLIP——图片搜索中的多模态稀疏化召回方法
最近笔者在回顾&笔记一些老论文,准备整理下之前看的一篇论文LexLIP,其很适合在真实的图片搜索业务场景中落地,希望笔记能给读者带来启发。原创 2024-07-28 18:58:51 · 1037 阅读 · 0 评论 -
【论文极速读】 可微分检索索引(Differential Search Index, DSI)
最近从朋友处得知了DSI这个概念,所谓的可微分检索索引DSI,就是通过语言模型将检索过程中的索引和召回阶段端到端地融合在一起,输入query模型直接输出docid,笔者今日抽空看了下原论文,简单笔记下,希望对各位读者有所帮助。原创 2024-07-14 22:52:38 · 754 阅读 · 0 评论 -
万字浅析视频搜索系统中的多模态能力建设
视频搜索是天然的富媒体检索场景,视觉信息占据了视频的一大部分信息量,在视频搜索系统中引入多模态能力,对于提高整个系统的能力天花板至关重要。本文将对在视频搜索系统中落地多模态能力(特别是视觉)进行讨论,同时为了让部分无相关背景的读者补充一些背景知识...原创 2024-06-30 21:35:16 · 2202 阅读 · 0 评论 -
模型无关的全局特征依赖分析方法 I ——部分依赖曲线分析与条件依赖曲线分析
模型无关的全局特征依赖分析方法——关于模型调试分析的一些事儿原创 2022-10-30 18:28:47 · 1165 阅读 · 0 评论 -
【论文极速读】FILIP: 一种基于交互的细粒度图文预训练模型
FILIP,基于交互的细粒度图文匹配模型原创 2022-10-16 01:47:34 · 1438 阅读 · 0 评论 -
【见闻录系列】浅谈搜索系统与推荐系统的一点区别
推荐系统和搜索系统的一些见解原创 2022-09-03 23:01:17 · 1232 阅读 · 0 评论 -
【Hadoop Streaming实践系列】 大规模字段提取的实践
Hadoop Streaming的大规模字段提取实践原创 2022-08-30 00:30:57 · 598 阅读 · 0 评论 -
hinge loss的一种实现方法
hinge loss的实现原创 2022-08-20 11:42:52 · 968 阅读 · 0 评论 -
【见闻录系列】我所理解的搜索业务二三事
搜索系统全链路的二三事原创 2022-08-07 17:42:08 · 877 阅读 · 1 评论 -
【见闻录系列】我所理解的“业务”
技术赋能业务的理解原创 2022-06-01 10:12:52 · 448 阅读 · 0 评论 -
在多模态模型训练时,如何合适地融合单模态损失
多模态训练时候导致的单模态缺损,需要同时考虑单模态损失原创 2022-04-21 10:27:47 · 4136 阅读 · 1 评论 -
【用户行为学研究】 从用户点击数据中构造隐式反馈
笔者在前文[4]中介绍了LTR模型中常用的GBRank模型,在文章末尾提到了根据用户点击数据构造隐式反馈,从而构建出有序对数据进行训练,因而引出了`Skip-Above`这个构建隐式反馈的方法,该方法在文章[1]中提出,作者根据翔实的用户行为学实验和分析,得出了包括`Skip-Above`在内的一系列通过点击信号来构建隐式反馈的方法。原创 2022-04-02 17:12:32 · 893 阅读 · 0 评论 -
搜索系统中的Learning To Rank模型:GBRank
GBRank模型介绍以及推导原创 2022-03-27 01:04:29 · 1041 阅读 · 0 评论 -
图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型
图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型 FesianXu 20220127 at Baidu Search Team前言之前在博文[2-4]中介绍了一些图文多模态语义对齐相关的模型,分别是WenLan 1.0, WenLan 2.0和CLIP等,这些模型都是双塔结构模型,然而在实际的应用场景中,我们会有使用单塔模型的需求,笔者在本文将介绍一篇论文[1]的思路,将单塔模型和双塔模型结合在一起进行图文多模态语义融合和对齐。如有谬误请联系指出,本文遵循 CC 4.0 BY-...原创 2022-01-28 19:36:37 · 6609 阅读 · 0 评论 -
WenLan 2.0:一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹
WenLan 2.0的方法介绍和个人理解原创 2021-12-03 15:23:27 · 3662 阅读 · 0 评论 -
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上 FesianXu 20210917 at Baidu Search Team前言之前我们在[1]中介绍过超大负样本对于对比学习训练的重要意义,并且在[2,3]中介绍了MoCo,Memory Bank等方法去突破硬件限制地去进一步增大负样本数量。然而,之前这些方法都尝试在单模态数据上进行对比学习[4],在文章[5]中,作者团队提出了WenLan项目,尝试在多模态模型中采用MoCo的形式进行大尺度负样本对比学习。本文是对WenLa...原创 2021-09-18 11:36:01 · 1943 阅读 · 1 评论 -
Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题
Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题 FesianXu 20210830 at Baidu Search Team前言在之前的博文[1,2]中已经说明了在对比学习中提高batch size的巨大作用,然而在大尺度对比学习的训练过程中,被广泛实践证明有效的Batch Norm层则很容易出现过拟合的现象。笔者在本文对该现象进行笔记,并且纪录其解决方案。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声...原创 2021-09-01 14:38:22 · 1165 阅读 · 5 评论 -
训练大规模对比学习的一些小笔记
训练大规模对比学习的一些小笔记 FesianXu 20210815 at Baidu Search Team前言笔者在公司中会面对数以亿计的用户历史行为数据,用好这些数据是非常关键的。而最近流行的对比学习在表征学习上有着广泛应用,特别是在大规模数据上的应用值得我们探讨。本文在不涉及具体工作内容的情况下,简要对大规模对比学习的训练进行一些笔记。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系...原创 2021-08-15 21:53:40 · 682 阅读 · 0 评论 -
Transformer的mask id两三事
Transformer的mask id两三事 FesianXu 20210808 at Baidu Search Team前言在Transformer中有着诸多的id,比如token id,position id,segment id,mask id等等,本文简单纪录下笔者在使用mask id时候的一些问题。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail...原创 2021-08-09 09:16:43 · 910 阅读 · 0 评论 -
CLIP-对比图文多模态预训练的读后感
CLIP-对比图文多模态预训练的读后感 FesianXu 20210724 at Baidu Search Team前言CLIP是近年来在多模态方面的经典之作,其用大量的数据和算力对模型进行预训练,使得模型的zero-shot性能甚至可以匹敌众多数据集上的监督SOTA,实在让人惊叹不已,本文简要纪录下笔者阅读该文后的读后感以及一些启发。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系方式:...原创 2021-08-08 16:49:31 · 5938 阅读 · 0 评论 -
搜索系统相关术语笔记
relevance feedback/pseudo relevance feedback相关性反馈 [1](relevance feedback,RF)/伪相关性反馈 [2](pseudo relevance feedback,PRF)是常见的提高相关性的技术。其中相关性反馈需要搜索系统和用户进行多次交互,才能对结果进行迭代优化,如Fig 1.1所示,如果用户给定了一个检索词『自行车』,那么系统将会首先给定一个候选集,如Fig 1.1的第一排所示。待用户勾选了若干和检索词有关的doc之后,系统将会基于用户原创 2021-07-07 18:07:40 · 200 阅读 · 0 评论 -
视频分析与多模态融合之一,为什么需要多模态融合
视频分析与多模态融合之一,为什么需要多模态融合 FesianXu 20210130 at Baidu search team前言在前文《万字长文漫谈视频理解》[1]中,笔者曾经对视频理解中常用的一些技术进行了简单介绍,然而限于篇幅,意犹未尽。在实习工作中,笔者进一步接触了更多视频分析在视频搜索中的一些应用,深感之前对视频分析在业界中应用的理解过于狭隘。本文作为笔者对前文的一个补充,进一步讨论一下视频分析以及其在搜索推荐系统中的一些应用。本文是该系列的第一篇,主要介绍了通用的视频图...原创 2021-06-26 23:35:32 · 2523 阅读 · 1 评论 -
从零开始的搜索系统学习笔记
从零开始的搜索系统学习笔记 FesianXu 20210307 at Baidu search team前言笔者在百度实习的过程中,从零开始开始学习了一些关于信息搜索系统的知识,觉得受益匪浅,在此笔记,希望对读者有所帮助。本文只是科普向,如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/Fes...原创 2021-05-03 15:24:08 · 1374 阅读 · 2 评论 -
【论文极速看】MOBIUS 一种构建负样本的方法
∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/FesianXu知乎专栏: 计算机视觉/计算机图形理论与应用微信公众号:在搜索,计算广告和推荐系统中,通常有着海量的用户数据,这类型的数据各种类型混杂,比如用户点击数据,用户浏览时长,还有各种用户行为信息等,如何根据这些数据构造出合适的数据集给模型训练,是一件核心问题。百度在论文[1]中提出了一种称之为MOBIUS的负样本构建思路。通常来说,搜索广告推荐(统称为推广搜系统)都原创 2021-04-30 15:00:26 · 504 阅读 · 0 评论 -
『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇
『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇FesianXu 20210219 at Baidu intern前言最近笔者在查看ERNIE论文的时候,发生了一件很乌龙的事情,本来笔者要查的是百度的ERNIE [2],但是没想到清华也有一个ERNIE [3],这俩论文的题目非常像,而且都开源了,所以笔者就对着清华ERNIE的论文在百度ERNIE的开源代码[4]里面找对应的code片段…也是极度无语了。不过后面发现了自己的傻X错误之后,重新把百度的ERNIE 1.0 [2]和 ERNIE.原创 2021-02-19 16:30:18 · 2099 阅读 · 1 评论 -
搜索系统中的一些指标
搜索系统中的一些指标 FesianXu 20210131 at Baidu intern前言本文作为笔者在学习搜索系统中时候遇到的一些指标以及其含义,计算方式的笔记。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comQQ: 973926198github: https://github.com/FesianXu知乎专栏: 计算机视觉/计算机图形...原创 2021-02-06 00:16:50 · 1211 阅读 · 0 评论 -
GBDT-梯度提升决策树的一些思考
GBDT-梯度提升决策树的一些思考 FesianXu 20210129 @ Baidu intern前言最近笔者工作中用到了GBRank模型[1],其中用到了GBDT梯度提升决策树,原论文的原文并不是很容易看懂,在本文纪录下GBDT的一些原理和个人理解,作为笔记。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comQQ: 973926198gith...原创 2021-01-30 14:10:55 · 417 阅读 · 0 评论