ICLR 2022 | 颠覆传统!大规模图像检索系统首次引入「热刷新」模型升级!腾讯&清华大学新作...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:腾讯ARC Lab & 腾讯OVB-AI技术中心

颠覆传统「冷刷新」模型升级范式,腾讯 ARC Lab、清华大学及腾讯在线视频 BU-AI 技术中心针对大规模检索系统推出「热刷新」模型升级的新机制,实现新模型即时部署上线、精度稳步在线提升等特性,并针对刷新过程中的模型退化问题提出有效解决方案。论文已被 ICLR 2022 接收,这是热刷新模型升级在学术界的首秀,领域主席(AC)评价「这是真实世界的图像检索系统中一个非常实用且重要的问题」。「热刷新」模型升级算法已成功部署在腾讯 PCG 视频关系中台,为千亿级向量索引系统提供快速模型升级服务,迭代效率提升 4 + 倍。

ee85de9a84ce2a179346bbb0339d6110.png

  • 论文链接:https://arxiv.org/abs/2201.09724

  • 代码链接:https://github.com/binjiezhang/RACT_ICLR2022

1 检索模型升级方式的革新

图像检索的应用在生活中无处不在,例如人脸识别、版权检测、图像定位等等,检索系统在推理时需要利用部署好的模型对查询图像进行特征提取,再与底库中所有预先提取好并存储的图像特征进行比对。对检索系统中部署的模型进行更新迭代是提升检索精度、改善用户体验的必经之路。

1.1 冷刷新 vs 热刷新

在传统的检索模型升级过程中,需要先用新模型离线刷新底库中的所有特征(称之为特征「回填」),再将新模型部署上线,这一过程被称之「冷刷新」模型升级。大规模检索系统往往存在海量的底库图像,将其全部离线刷新一遍可能花费数周乃至数月,冷刷新模型升级存在模型迭代的时间成本高、用户体验不能得到即时改善等几大弊端。

为此,研究者首次提出「热刷新」模型升级方案,兼容学习 [1] 训练的新模型所提取的新特征由于可以与底库中的旧特征直接对比,所以无需特征回填便可即时部署上线新模型;同时,由于新特征与旧特征直接可比、可互换,所以在新模型部署上线后,可以利用新模型在线刷新底库特征,实现检索精度的逐步爬升,直至全部底库特征刷新完毕。

如下图所示,「热刷新」模型升级机制无需等待离线特征回填,精度即时提升 (O→A) 且用户体验逐步改善(A→B),离无缝模型升级更近一步。

a2db431207f75e2e94b21c9680a9b157.png

「冷刷新」模型升级 &「热刷新」模型升级

1.2 热刷新 vs 无刷新

在过往的兼容学习 [1] 工作中也曾有对模型即时部署的阐述,研究者提出新模型的兼容特性,使其可以在无特征回填的情况下部署上线,这种升级策略被称之为「无刷新」模型升级。在该策略下,底库特征始终保持不变,限制了新模型的精度上限,在多代模型升级后劣势尤其显著。

如下图所示,虚线为「无刷新」模型升级,实线为「热刷新」模型升级。从三次模型升级迭代后的精度变化中,可以明显观察出「热刷新」模型升级的优势。大家可能发现,热刷新过程中,模型精度出现了短暂的下降,这也就是下文要继续介绍的「模型退化」(model regression)问题。

295cb46b7ead31f1e1b978ccfb51eac5.png

「热刷新」模型升级(实线)& 「无刷新」模型升级(虚线)

2 热刷新升级中的模型退化问题

尽管现有的兼容训练算法使得热刷新模型升级成为了可能,但他们均面临刷新过程中的「模型退化」问题,即升级中检索精度的下降,如下图所示(A→C)。

52d707856a694d105768bd76135ea865.png

热刷新模型升级中的模型退化问题

研究者发现,这实际上是由升级过程中的负翻转造成,负翻转指的是旧检索系统中可以正确识别的查询图像在热刷新升级过程中被错误识别。而造成负翻转的最主要原因,是在底库特征在线回填过程中,存在新→新负样本对距离小于新→旧正样本对距离的情况,如下图所示。

e00f2eeea523546d13c2c9a76b1730a4.png

负翻转的主要因素

2.1 缓解退化的兼容约束

为了缓解热刷新模型升级过程中的模型退化问题,作者提出了一种简单有效的正则化,即约束新→旧正样本对距离不光要小于新→旧负样本对距离,也要小于新→新负样本对距离(过往兼容学习算法只约束了前者),并以对比学习的形式呈现。如下图所示,该正则化被称之为缓解退化的兼容损失函数,具体公式不在此呈现,感兴趣的读者可翻阅论文。

7d6cadff7a3c9219646467af3c3a4540.png

缓解退化的兼容训练

这一正则化看似是对已有兼容损失函数的细微修改,但对于缓解模型退化问题来说起着本质的作用。如下图所示,研究者在 Google Landmark v2 数据集上针对三种不同类型的数据设置(数据拓展、开放数据以及开放类别)进行了实验,均可观察到所提出算法的有效性。同时,他们对热刷新模型升级过程中的负翻转率进行了定义,量化模型退化程度,如图中内嵌小图所示,所提出的算法可有效减少负翻转率。

6df7a64d5b2078045c4475ba1d1a7652.png

传统兼容训练(虚线)& 缓解退化的兼容训练(实线)

2.2 基于不确定性的回填策略

上文提到的损失函数在训练阶段显式地约束新模型减少负翻转的可能性出现,同时研究者也提出一种基于不确定性的底库回填策略,可以在热刷新过程中隐式地减少负翻转。该回填策略基于「辨识度差的特征应优先被刷新」的原则,通过轻量快速地估计底库旧特征的分类不确定性,判断特征的可辨识度。

如下图所示,研究者在 Oxford 数据集上进行了测试,无论在部署传统兼容训练的新模型(虚线)还是缓解退化兼容训练的新模型(实线)时,基于不确定性的回填策略(彩色)都可以间接减轻模型退化问题并实现精度更快更稳定的提升。

8b27e3708268a18f55bda67ba91df912.png

随机回填策略(灰色)& 基于不确定性的回填策略(彩色)

上文中仅展示部分实验结果,更多实验请翻阅原文。

3 腾讯 PCG 业务中的应用和实践

腾讯 PCG - 视频关系中台主要提供视频排重、视频侵权、视频语义关系的检测及数据服务。目前,向包括腾讯视频、腾讯小世界、微信视频号、微视等多个视频业务提供服务,涉及千亿量级的视频指纹特征,模型迭代带来的时间及机器成本十分高昂。而基于兼容特征的「热刷新」方案加速了 4+ 倍算法版本更新效率,同时节约了数百万元的机器成本,使得中台的算法服务可以更加灵活的面对变化多样的业务环境。

4 总结

该文对热刷新模型升级及其过程中会出现的模型退化问题进行了首次研究和深入剖析,这是实际应用中非常重要的一项任务,研究者希望该论文能够引起公众对业界中高效模型升级瓶颈问题的关注。尽管引入的缓解退化的兼容性正则化可以在一定程度上减少负翻转,但要彻底消除模型退化的问题还有很长的路要走,因此呼吁更多的研究人员加入这个方向进行进一步的研究。

参考文献:

1. Yantao Shen, Yuanjun Xiong, Wei Xia, and Stefano Soatto. Towards backward-compatible representation learning. In CVPR, 2020.

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大规模图像检索的代码,matlab与c++混合编程。总结了目前图像检索领域目前主要存在的方法。通过阅读该代码,可以对于经典的“词袋”模型(bow模型)有个具体的了解,但是该代码没有提供前序的特征提取,是直接从对提取好的特征向量聚类开始的,包括了k-means,分层k-means(HKM)聚类,倒排文件的建立和索引等,该代码还提供了局部敏感哈希(LSH)方法。最后,这份代码是下面这篇论文的作者提供的, Indexing in Large Scale Image Collections: Scaling Properties and Benchmark-This C++/Matlab package implements several algorithms used for large scale image search. The algorithms are implemented in C++, with an eye on large scale databases. It can handle millions of images and hundreds of millions of local features. It has MEX interfaces for Matlab, but can also be used (with possible future modifications) from Python and directly from C++. It can also be used for approximate nearest neighbor search, especially using the Kd-Trees or LSH implementations. The algorithms can be divided into two broad categories, depending on the approach taken for image search: 1. Bag of Words: ---------------- The images are represented by histograms of visual words. It includes algorithms for computing dictionaries: * K-Means. * Approximate K-Means (AKM). * Hierarchical K-Means (HKM). It also includes algorithms for fast search: * Inverted File Index. * Inverted File Index with Extra Information (for example for implementing Hamming Embedding).
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值