- 博客(239)
- 收藏
- 关注

原创 图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型
图文多模态语义融合前的语义对齐——一种单双混合塔多模态模型 FesianXu 20220127 at Baidu Search Team前言之前在博文[2-4]中介绍了一些图文多模态语义对齐相关的模型,分别是WenLan 1.0, WenLan 2.0和CLIP等,这些模型都是双塔结构模型,然而在实际的应用场景中,我们会有使用单塔模型的需求,笔者在本文将介绍一篇论文[1]的思路,将单塔模型和双塔模型结合在一起进行图文多模态语义融合和对齐。如有谬误请联系指出,本文遵循 CC 4.0 BY-...
2022-01-28 19:36:37
4692

原创 WenLan 2.0:一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹
WenLan 2.0的方法介绍和个人理解
2021-12-03 15:23:27
2823

原创 集群深度学习训练实践笔记——多进程Dataset设计
集群深度学习训练实践笔记——多进程Dataset设计 FesianXu 20211105 at Baidu Search Team前言之前在[1]中曾经讨论过在集群中分布式训练大型模型需要一些特别的分布式数据加载器设计,文章最后还讨论了由于分布式多机多卡训练过程中,某个trainer由于数据读取,将会导致其他所有trainer阻塞等待,造成了很大的计算资源浪费的情况。本文针对这种情况,提出一种基于多进程的解法。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原...
2021-11-05 22:40:15
264

原创 集群深度学习训练实践笔记——分布式数据读取器
集群深度学习训练实践笔记——分布式数据读取器 FesianXu 20211104 at Baidu Search Team前言本文主要作为笔者在分布式集群中训练深度学习模型,特别是一些大规模模型和在海量数据下的训练的经验,本文实践以paddle 2.1为例,包括paddle 动态图和静态图的使用等。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail...
2021-11-04 17:21:40
1048

原创 【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象
【论文极速读】MoCo v3: MoCo机制下Transformer模型的训练不稳定现象 FesianXu 20211015 at Baidu search team前言之前笔者在[1]中介绍过MoCo v1模型通过解耦batch size和负样本队列大小,从而实现超大负样本队列的对比学习训练方案;在[2]中我们提到了当前对比学习训练中提高负样本数量的一些方法;在[3]中提到了将MoCo扩展到多模态检索中的方案。在本文,我们介绍下MoCo v3,一种尝试在Transformer模型中引入...
2021-11-03 20:47:16
602

原创 图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上
图文搜索系统中的多模态模型:将MoCo应用在多模态对比学习上 FesianXu 20210917 at Baidu Search Team前言之前我们在[1]中介绍过超大负样本对于对比学习训练的重要意义,并且在[2,3]中介绍了MoCo,Memory Bank等方法去突破硬件限制地去进一步增大负样本数量。然而,之前这些方法都尝试在单模态数据上进行对比学习[4],在文章[5]中,作者团队提出了WenLan项目,尝试在多模态模型中采用MoCo的形式进行大尺度负样本对比学习。本文是对WenLa...
2021-09-18 11:36:01
1126
1

原创 Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题
Batch Norm层在大尺度对比学习中的过拟合现象及其统计参数信息泄露问题 FesianXu 20210830 at Baidu Search Team前言在之前的博文[1,2]中已经说明了在对比学习中提高batch size的巨大作用,然而在大尺度对比学习的训练过程中,被广泛实践证明有效的Batch Norm层则很容易出现过拟合的现象。笔者在本文对该现象进行笔记,并且纪录其解决方案。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声...
2021-09-01 14:38:22
627
5

原创 训练大规模对比学习的一些小笔记
训练大规模对比学习的一些小笔记 FesianXu 20210815 at Baidu Search Team前言笔者在公司中会面对数以亿计的用户历史行为数据,用好这些数据是非常关键的。而最近流行的对比学习在表征学习上有着广泛应用,特别是在大规模数据上的应用值得我们探讨。本文在不涉及具体工作内容的情况下,简要对大规模对比学习的训练进行一些笔记。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系...
2021-08-15 21:53:40
349

原创 CLIP-对比图文多模态预训练的读后感
CLIP-对比图文多模态预训练的读后感 FesianXu 20210724 at Baidu Search Team前言CLIP是近年来在多模态方面的经典之作,其用大量的数据和算力对模型进行预训练,使得模型的zero-shot性能甚至可以匹敌众多数据集上的监督SOTA,实在让人惊叹不已,本文简要纪录下笔者阅读该文后的读后感以及一些启发。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系方式:...
2021-08-08 16:49:31
4595

原创 MoCo 动量对比学习——一种维护超大负样本训练的框架
MoCo 动量对比学习——一种维护超大负样本训练的框架FesianXu 20210803 at Baidu Search Team前言在拥有着海量数据的大型互联网公司中,对比学习变得逐渐流行起来,大家都拿它进行表征学习的探索。本文对MoCo这篇论文进行笔记,希望对读者有所帮助。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://.
2021-08-08 15:25:34
1521

原创 在图卷积网络中的可导池化操作
在图卷积网络中的可导池化操作 FesianXu 20210627 at Baidu search team 前言我们在之前的博文[1,2,3]中初步讨论过图卷积网络的推导和信息传递的本质等,本文继续讨论在图卷积网络中的可导池化操作。如有谬误请联系指出,本文遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明并且联系笔者,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.co...
2021-06-27 09:18:57
217
1

原创 视频分析与多模态融合之一,为什么需要多模态融合
视频分析与多模态融合之一,为什么需要多模态融合 FesianXu 20210130 at Baidu search team前言在前文《万字长文漫谈视频理解》[1]中,笔者曾经对视频理解中常用的一些技术进行了简单介绍,然而限于篇幅,意犹未尽。在实习工作中,笔者进一步接触了更多视频分析在视频搜索中的一些应用,深感之前对视频分析在业界中应用的理解过于狭隘。本文作为笔者对前文的一个补充,进一步讨论一下视频分析以及其在搜索推荐系统中的一些应用。本文是该系列的第一篇,主要介绍了通用的视频图...
2021-06-26 23:35:32
1779
1

原创 从零开始的搜索系统学习笔记
从零开始的搜索系统学习笔记 FesianXu 20210307 at Baidu search team前言笔者在百度实习的过程中,从零开始开始学习了一些关于信息搜索系统的知识,觉得受益匪浅,在此笔记,希望对读者有所帮助。本文只是科普向,如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub: https://github.com/Fes...
2021-05-03 15:24:08
772
2

原创 将Transformer用在图片上:Vision Transformer论文杂谈
将Transformer用在图片上:Vision Transformer论文杂谈 FesianXu 20210422 at Baidu search team前言Transformer自提出以来在NLP领域取得了诸多突破,而自然而然有工作在考虑如何在图片等视觉媒体上应用Transformer,本文介绍Vision Transformer (ViT)模型,并且作为笔记记录了一些笔者的读后感。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。...
2021-04-22 20:54:50
1000

原创 语义标签(Semantic label)与多模态模型的一些关系
语义标签(Semantic label)与多模态模型的一些关系 FesianXu 20210317 at Baidu intern前言语义标签指的是通过特殊方式使得样本的标签具有一定的语义信息,从而实现更好的泛化,是解开放集问题(open set)和zero-shot问题中的常见思路。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comgithub:...
2021-03-18 00:34:24
1338

原创 『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇
『清华ERNIE』 与 『百度ERNIE』 的爱恨情仇FesianXu 20210219 at Baidu intern前言最近笔者在查看ERNIE论文的时候,发生了一件很乌龙的事情,本来笔者要查的是百度的ERNIE [2],但是没想到清华也有一个ERNIE [3],这俩论文的题目非常像,而且都开源了,所以笔者就对着清华ERNIE的论文在百度ERNIE的开源代码[4]里面找对应的code片段…也是极度无语了。不过后面发现了自己的傻X错误之后,重新把百度的ERNIE 1.0 [2]和 ERNIE.
2021-02-19 16:30:18
1647
1

原创 讨论数据增强(data augmentation)的有效性
讨论数据增强(data augmentation)的有效性 FesianXu 20210216 at Baidu intern前言在知乎上遇到了一个问题并且进行了简单的回答,如何证明数据增强(Data Augmentation)有效性? 这个问题其实蛮有意思的,以此为展开简要记录下在图像领域常用的一些数据增强方法。本文参考了论文[1]。 如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail:...
2021-02-17 18:03:39
1282

原创 [darknet源码系列-3] 在darknet中,如何根据解析出来的配置进行网络层构建
[darknet源码系列-3] 在darknet中,如何根据解析出来的配置进行网络层构建 FesianXu 20201120 at UESTC前言笔者在[1,2]中已经对darknet如何进行配置解析进行了讲解,现在我们需要将解析出来的配置进行对应的网络层构建。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comQQ: 973926198githu...
2020-11-26 16:50:13
420

原创 [darknet源码系列-2] darknet源码中的cfg解析
[darknet源码系列-2] darknet源码中的cfg解析 FesianXu 20201118 at UESTC前言笔者在[1]一文中简单介绍了在darknet中常见的数据结构,本文继续上文的节奏,介绍如何从cfg文本文件中解析出整个网络的结构与参数。如有谬误请联系指出,本文遵守 CC 4.0 BY-SA 版权协议,转载请联系作者并注明出处,谢谢。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comQQ: 973926198github:...
2020-11-20 20:30:53
780

原创 机器学习杂货铺的汇总贴
本文主要对该博客的文章进行汇总和分类,因为博客规模逐渐变大之后,索引文章就变成一个日渐凸显的问题了。图神经网络相关《学习geometric deep learning笔记系列》第一篇,Non-Euclidean Structure Data之我见《Geometric Deep Learning学习笔记》第二篇, 在Graph上定义卷积操作,图卷积网络《Geometric Deep Learning学习笔记》第三篇,GCN的空间域理解,Message Passing以及其含义Shif
2020-11-18 20:48:42
860
2

原创 运动的零阶分解与一阶分解以及在图片动画化中的应用 I
运动的零阶分解与一阶分解以及在图片动画化中的应用 I(The 0th-order and first-order decomposition of motion and the application in image animation I) FesianXu 2020/09/16 at UESTC前言最近基于AI的换脸应用非常的火爆,同时也引起了新一轮的网络伦理大讨论。如果光从技术的角度看,对于视频中的人体动作信息,通常可以通过泰勒展开分解成零阶运动信息与一阶运动信息,如文献...
2020-09-21 15:12:11
1319
5

原创 薄板样条插值(Thin Plate Spline)
薄板样条插值(Thin Plate Spline) FesianXu 2020/09/08 at UESTC前言本文是笔者阅读[1]过程中,遇到了关于Thin Plate Spline[5]相关的知识,因而查找若干资料学习后得到的一些笔记,本文主要参考[2,3,4],希望对大家有所帮助。 如有谬误,请联系指出,转载请联系作者并注明出处。∇\nabla∇ 联系方式:e-mail: FesianXu@gmail.comQQ: 973926198github: https://...
2020-09-09 10:16:52
4228
5

原创 视频人体动作捕捉技术
视频人体动作捕捉技术 FesianXu 2020/08/25 at UESTC前言人体动作捕捉技术(简称人体动捕技术)是影视游戏行业中常用的技术,其可以实现精确的人体姿态,运动捕捉,但是用于此的设备昂贵,很难在日常生活中广泛应用。视频人体动作捕捉技术指的是输入视频片段,捕捉其中场景中的人体运动信息,基于这种技术,可以从互联网中海量的视频中提取其中的人体运动姿态数据,具有很广阔的应用场景。本文打算介绍视频人体动作捕捉相关的一些工作并且笔者的一些个人看法 。 如有谬误,请联系指出,转...
2020-08-31 15:57:18
5379
4

原创 基于图结构的视频理解——组织视频序列的非线性流
基于图结构的视频理解——组织视频序列的非线性流 FesianXu 2020/08/21 at Alibaba intern前言我们在之前的博文[1]中曾经花了很长的篇幅介绍了视频理解与表征的一些内容,当然,由于篇幅原因,其实还是省略了很多内容的,特别是一些比较新的研究成果都没能进行介绍,在本文,我们继续我们的视频理解之旅,我们将在本文介绍一种基于图结构的视频理解方法,其可以组织视频序列中一些人为编辑或者镜头切换导致的非线性流,是一项非常有意思的研究。 如有谬误,请联系指出,转载请...
2020-08-25 02:31:48
611

原创 万字长文漫谈视频理解
漫谈视频理解 2020/4/12 FesianXu前言AI算法已经渗入到了我们生活的方方面面,无论是购物推荐,广告推送,搜索引擎还是多媒体影音娱乐,都有AI算法的影子。作为多媒体中重要的信息载体,视频的地位可以说是数一数二的,然而目前对于AI算法在视频上的应用还不够成熟,理解视频内容仍然是一个重要的问题亟待解决攻克。本文对视频理解进行一些讨论,虽然只是笔者对互联网的一些...
2020-04-16 09:37:52
5563
13
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人