人类感知到的信息中,有83%来自视觉,机器人的感知和交互也同样非常依赖机器视觉。因此,视觉传感是机器人理解外界信息的重要手段,随之而来的图像分析,则消耗了机器人等终端设备的大部分算力。如何在出色完成图像分析任务的前提下,尽可能降低终端算力的消耗,是人工智能和机器人产业在降低成本、提升性能时的重要考量。
目前,优必选科技在这一方向上取得了进展,相关研究成果已应用于公司研发的机器人,同时研究团队基于这一研发成果创作的论文《Triplet Ratio Loss for Robust Person Re-identification》(用于鲁棒行人重识别的三元组比例损失函数),被第五届中国模式识别与计算机视觉大会(The 5th Chinese Conference on Pattern Recognition and Computer Vision, PRCV 2022)收录。PRCV 2022由中国人工智能学会、中国计算机学会、中国自动化学会和中国图象图形学学会联合主办,是国内顶级的模式识别和计算机视觉领域学术盛会。
优必选科技鼓励和支持研究人员进行原创性、引领性的关键核心技术攻坚,在产业研究中不断发现问题、解决问题,坚持产学研用融合发展,针对产业需求和痛点,做真正有行业价值的学术研究。对算力的高效利用,是人工智能和机器人产业发展的关键问题。如果能以较少的终端算力,出色地完成图像分析任务,不仅能够降低成本,还能腾出算力让机器人完成更多复杂任务,向更加智能化迈进。
论文原标题:Triplet Ratio Loss for Robust Person Re-identification
下载链接:Triplet Ratio Loss for Robust Person Re-identification | SpringerLink(本论文见论文集P42)
该篇论文提出了三元组比例损失函数(Triplet Ratio Loss),并以行人重识别任务为例,展示了新算法的优越性。过去,行人重识别算法通常通过联合优化交叉熵损失函数(Cross-Entropy Loss,以下简称CE Loss)和2015年谷歌提出的三元组损失函数(Triplet Loss)来训练模型,这种优化方式有两大问题:
1)容易受到训练过程中三元组采样的对间差异性(intra-pair variation)的影响;
2)训练过程中的不合理的优化梯度可能会导致模型坍缩。
针对上述问题,近年来的主要改进方法依然局限于基于间隔超参(margin)的三元组损失模式,例如改进采样方式、引入自适应的间隔超参等等。尽管提升了模型的性能 ,这些改进方法仍然没有显式地解决优化梯度不合理的问题。为了解决上述问题,本文提出了三元组比例损失(Triplet Ratio Loss),该损失函数提出了一种全新的基于比例的优化机制,直接优化类内距离与类间距离之间的比值,并约束其小于提前设置的超参。三元组比例损失的主要优点包括:
- 缓解了由于三元组采样过程中对间不一致性问题带来的模型性能损失;
- 改善了模型训练过程中的优化梯度和模型的收敛状态。
实验证明,本文提出的三元组比例损失可以有效地提升行人重识别模型在目前已有的三个公开数据集上的性能,能够在受限的算力下使用更小的模型实现同等的准确率效果。
方法对比
- 三元组损失
经典的行人重识别模型一般使用联合优化交叉熵损失函数和三元组损失来训练模型。顾名思义ÿ