由「刷脸」到「识人」,云从科技刷新跨镜追踪(ReID)技术三项世界纪录!

人工智能由“刷脸”进入“识人”阶段,跨镜追踪(ReID)技术大大提高商用水平

人脸识别技术经过进几年的发展,已较为成熟,在众多的场景与产品中都已有应用,但人脸识别技术只能用到人体的人脸信息,放弃了人体其他重要信息的利用,例如衣着、姿态、行为等,另外在应用时必须要有清晰的人脸正面照片,但在很多场景下无法满足要求,例如低头、背影、模糊身形、帽子遮挡等等。

而跨镜追踪(ReID)技术正好能够弥补人脸识别的这些不足,行人重识别能够根据行人的穿着、体态、发型等信息认知行人。这将人工智能的认知水平提高到一个新的阶段,现在跨镜追踪已成为人工智能领域的重要研究方向。但现有的研究成果还不是很成熟,离实际商用的要求还有一定距离。而云从科技的跨镜追踪(ReID)技术获得了重大突破,将现有的技术水平提高到一个新的阶段,这将大大推动业界技术研究与应用落地的进度,也将大大推动人工智能由「刷脸」跨进全面「识人」的新纪元。

定义:

跨镜追踪技术(Person Re-Identification,简称 ReID)是现在计算机视觉研究的热门方向,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。该技术可以作为人脸识别技术的重要补充,可以对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪,增强数据的时空连续性。该技术可以广泛应用于视频监控、智能安保、智能商业等领域。

难点:

ReID技术与人脸识别技术类似,存在较多的困难点需要克服,例如光线、遮挡、图片模糊等客观因素。另外,行人的穿着多样,同一人穿不同的衣服,不同的人穿相似的衣服等等也对ReID技术提出更高的要求。行人的姿态多变导致人脸上广泛使用的对齐技术也在ReID失效。行人的数据获取难度远远大于人脸识别数据获取难度,而行人的信息复杂程度又远远大于人脸,这两个因素叠加在一起使得ReID的算法研究变得更加困难,也更加重要。通过算法的有效设计,降低对数据依赖来实现ReID效果的突破是现在业内的共识。

本次云从提出通过融合行人的全局信息以及具有辨识力的多粒度局部信息的思路,为解决ReID问题提供了一个非常不错的思路。云从科技本次提出的方案有几大优势(1)结构精巧:该方案实现了端到端的直接学习,并没有增加额外的训练流程,(2)多粒度:融合了行人的整体信息与有区分度的多粒度细节信息,(3)关注细节:模型真正懂得什么是人,模型会把注意力放在膝盖,衣服商标等能够显著区分行人的一些核心信息上。

研究成果:

Market-1501,CUHK03,DukeMTMC-reID是衡量ReID技术的最主流的数据集。首位命中率(Rank-1 Accuracy)、平均精度均值(Mean Average Precision,mAP)是衡量ReID技术水平的核心指标。云从科技在这三个数据集中都刷新了业内最好的水平,在Market-1501数据集的Rank-1 Accuracy达到惊人的95.7%,使用Re-Ranking 技术后更是达到96.6%。mAP是更加全面衡量ReID算法效果的指标,它要求将检索图片与被检索图片都匹配正确,而不止首位命中。云从科技此次将Market-1501的mAP指标将现在最好的水平提高了近5%,达到86.9%,使用Re-Ranking技术之后更是达到了94.2 %。能够获得如此大幅度的突破,充分说明云从科技ReID的研究成果的价值,该成果必然能够推动ReID技术的大幅进步,也使得ReID离实际商业应用越来越近。

5ae690732fcc72579be81bdd0f5b3f0623d33d30

行人相对人脸的一个巨大的不足是数据的稀缺,行人最主流的数据集才1000-3000个行人ID,而人脸的公开数据集ID规模已超100万,企业私有的ID规模可能更大。这样的现象主要是由于行人数据集需要采集自同一个人在一段时间内同时出现在多个摄像头下,这样严苛的要求限制了行人数据集的构建。正因为数据的缺失,对ReID算法的研究提出了更高的要求。云从科技本次的方案不是以堆数据这么”简单粗暴”的方式提高精准度,而是通过对深度学习对行人学习的本质研究,通过设计针对性的网络结构与算法,使得人工智能对行人识别的理解达到一个全新的高度。

「刷脸」是计算机视觉领域的重要的应用,而「识人」将促使计算机视觉行业进入新的发展阶段。云从科技作为人脸识别领域的领导者之一,同样对行人识别的技术前景、应用场景、社会价值有极其深刻的研究。本次ReID技术的分享是一次尝试,云从科技在「识人」方向的众多细分领域已经有深入的研究,例如行人检测、行人结构化信息提取、人体关键点检测、姿态估计、行为动作识别等。云从科技希望能够与业内一起推动计算机视觉在「识人」这个方向上的发展,让大家能够更快地体会到「识人」的人工智能对智能安防、人机互动、自动驾驶、智能商业、家居生活等各方面的帮助与提升。

文章导读

7358cac8373162d32abe54d988a98445a62cbea6

作者表示结合全局与局部特征是提高提取行人关键可分辨信息的重要方法。之前的局部特征提取的方法专注在基于位置的显著信息提取,导致训练难度提高,同时在复杂场景的鲁棒性并不尽如人意。而作者新设计了一个多分支的端到端的深度网络,使得不同级别的网络分支能够关注不同粒度的分辨信息,也能够有效兼顾整体信息。损失函数部分,作者表示为了充分体现网络的真实潜力,该文章中只使用了在深度学习中非常常见的Softmax Loss 与Triplet Loss。

27866df7741b8932da2ad68fdd4dd7c96ba22113

作者的对多粒度的解析如图所示,从左到右是人体部分从粗粒度到精细粒度的过程。左边三张是完整的行人图片,中间是将行人图片分割为上下两部分,最有右边是将行人图片分成上中下三个部分。

网路结构图

22838be6366c68460af3fcd84577a45d9dbff6e5

多粒度网络(Multiple Granularity Network,MGN)如上图所示,该结构的基础网络部分采用业内最为常用的Resnet50。根据对Resnet50网络以及跨镜追踪的深刻分析,作者创新性地对Resnet50进行了合理的修改,使用Resnet50前三层提取图像的基础特征,而在高层次的语意级特征作者设计了3个独立分支。如图所示,第一个分支负责整张图片的全局信息提取,第二个分支会将图片分为上下两个部分提取中粒度的语意信息,第三个分支会将图片分为上中下三个部分提取更细粒度的信息。这三个分支既有合作又有分工,前三个低层权重共享,后面的高级层权重独立,这样就能够像人类认知事物的原理一样即可以看到行人的整体信息与又可以兼顾到多粒度的局部信息。

同时文章对损失函数部分也进行了精心而巧妙的设计。三个分支最后一层特征都会进行一次全局MaxPooling操作,而第二分支与第三分支还会分别再进行局部的MaxPooling,然后再将特征由2048维降为256维。最后256维特征同时用于Softmax Loss与Triplet Loss计算。另外,作者在2048维的地方添加一个额外的全局Softmax Loss,该任务将帮助网络更全面学习图片全局特征。

而在测试的时候只需使用使用256维特征作为该行人的特征进行比较,无需使用2048维的特征,使用欧氏距离作为两个行人相似度的度量。

正是这样简约的设计,使得整个网络对行人完成由粗粒度特征到精细粒度特征的理解。

作者最后使用Re-Ranking技术对结果进行处理。需要着重强调的是文章的数据显示,本方法在Market-1501的Rank1数值即使在没有使用Re-Ranking技术的情况下已达到95.7%,这个结果已经超越了其他方案使用Re-Ranking技术后的结果。另外本方案的所有结果都是根据每个数据集官方提供的训练数据以及评测方法进行,并没有做数据扩充或者将多个数据集融合训练这样的”技巧”性策略。


原文发布时间为:2018-04-17
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值