微信识图之面向多源异构数据的检测器设计

最新推荐文章于 2024-09-21 14:48:47 发布

腾讯技术工程

最新推荐文章于 2024-09-21 14:48:47 发布

阅读量1.1k

点赞数 1

文章标签：算法定位人工智能机器学习深度学习

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/115191339

版权

微信识图通过物体检测技术处理多源异构数据，应对注意力、开集检测、标注成本、多源异构性、隐私与并发等问题。文章回顾学术界检测算法发展，提出移动端和后台检测模型，包括移动端快速检测、全图多标签分类、双流架构设计等，旨在提高用户视觉中心物体的定位和识别精度。

摘要由CSDN通过智能技术生成

作者：breezecheng、morajiang、lyleleeli，腾讯 WXG 应用研究员

微信识图已经在微信的扫一扫识物，微信聊天/朋友圈/公众号长按图片搜一搜等场景上线，并且从最初的电商类目（鞋子、箱包、美妆、服装、家电、玩具、图书、食品、珠宝、家具等），扩展到更加丰富的万物场景，囊括了植物、动物、汽车、红酒、地标、菜品、名画、商标、作业以及其他通用场景。在算法架构上，微信识图主要由三大核心步骤组成，即为主体检测+子类目预测+子类目细粒度同款检索，开发一个高性能的检测器对于前两个步骤至关重要，本文将主要介绍我们针对微信识图场景的数据多源异构特性而打造的后台检测器.

一. 物体检测的作用及难点

一般来说, 抛开手机端前置的一些预处理操作(比如手机静止判定, 清晰帧选取, 散点特效图), 检测器在整个识图流程中位于第一步, 即我们需要首先定位到用户视野中心所关注的物体, 将其从嘈杂的背景中扣取出来用于后续的细粒度物体识别. 业内众多的识图产品, 无一例外嵌入了物体检测算法. 那么如何设计一个高性能的物体检测器自然是大家都格外关注的一个点.

为了让大家更好的理解检测在整个识图算法架构中的作用, 我们这里将微信识图的整体框架展示在图 1.2 中, 大家对细节感兴趣的话可以, 可以浏览我们组之前的文章《微信扫一扫识物技术解析》[1]. 这里我们重点介绍物体检测部分, 它对主体检测和类目预测两个环节都起到重要作用. 这里大家可能容易跟学术界的物体检测概念混淆起来, 因为学术界的物体检测涵盖了物体定位和类目预测, 为何下面的架构图将其拆解成了两个模块, 这里主要是因为微信识图面向的是开集问题, 相对学术界的闭集检测问题(假定训练集中涵盖了测试集的所有物体类目), 我们需要处理用户的任何输入请求, 并返回精确的检测结果, 因而在类目预测阶段仅仅靠检测模型是不够的, 我们需要将检索匹配结果嵌入来综合预测物体的类目, 本文 3.6 章节我们会对该问题进行更加细致的阐述.

图1.2 微信识图整体算法架构

检测的作用不言而喻, 但是做好检测任务并不是一个简单的事情. 比如图 1.1 中百度识万物的检测器就因为将耳机+键盘+鼠标垫一起检测出来, 而导致后续将其误识别为办公桌. 微信识图面向的是万物识别, 我们将检测面对的难点和挑战总结为下面几点:

(1) 注意力问题. 为了优化扫一扫识物体验, 我们需要检测的物体是用户视觉中心关心的物体, 减少用户不必要的交互操作

(2) 开集检测问题. 适配用户任意输入请求(可能是从未见过的子类目)

(3) 标注成本问题. 项目落地钟物体检测的标注时间和金钱成本不容忽视

(4) 多源异构性问题. 这是最具挑战的一点, 我们多说一句. 多源性是指我们检测器需要处理不同来源的数据, 如室内嘈杂的办公桌, 室外空旷的草地, 用户随手上传的街拍数据, 卖家精心评测自家的电商数据, 不同来源的数据在光线, 清晰度, 尺度, 视角都变化巨大; 异构性则是根据我们对不同垂类的定位和检索要求来定义的, 如电商, 汽车, 动物我们一般要求框图是物体明显的边界, 而植物, 地标和菜品通常有可能是边界模糊, 需要涵盖绿叶, 背景和器皿, 红酒我们主要定位是酒标而不是酒瓶(酒标对红酒的识别更具判别性), 名画我们定位的是画作本身而不是相框(很多画作不带相框), 商标主要定位图案 logo(纯文字 logo 由 OCR 来完成, 暂时还未上线), 作业检测的目的是切分不同的题目(不同学科如英语, 数学题目的定义差异巨大, 不像电商等垂类有明确的主体概念), 结构迥异的垂类也就带来了更加严峻的困难样本检测问题, 长尾检测问题, 以及模型收敛问题, 参考图 1.3.

(5) 隐私, 传输流量和并发问题. 对于用户隐私图片如账单等图片自动判别不进行后续识图操作, 对用户高清图快速定位显著区域并抠图, 减少流量处理, 以及部署模型的精度和速度折中问题.

如何解决上述 5 大问题, 在介绍微信识图的检测算法之前, 我们先来回顾下学术界的物体检测算法.