论文阅读:《Automatic Car Damage Assessment System:...》

前言:

《Automatic Car Damage Assessment System: Reading and Understanding Videos as Professional Insurance Inspectors》这篇论文是蚂蚁金服团队发表的,被AAAI 2020录用,同时定损宝这个应用也是蚂蚁金服团队开发的。这篇论文总共只有两页,没有介绍具体的算法细节。所以我就对其中重要的内容进行简单的翻译以及我自己的理解。
论文中提到的几个商业级的汽车定损项目网址:
tractable.ai/products/car-accidents
tonkabi.com/artifificial-intelligence
www.altoros.com/car-damage-recognition

一、自动损伤评估所面临的问题

1、高质量的视频很难获得,因为不可预测的用户行为导致离焦、任意拍摄角度和极端的汽车组件尺度等问题。 我们的系统通过前端交互模块获取视频,引导用户拍摄高质量和适当距离的视频。
2、汽车外观上的反射、泥浆和盖子可能被错误地识别为损伤。 通过从视频中提取多帧的模型融合,降低了噪声,并得到更好的结果。
3、汽车部件和损坏需要在像素级分割,以准确定位损坏。 分割的标签工作要比目标检测标签工作耗时得更多, 提出了一种利用大规模的bounding box标签进行训练(目标检测任务的标签)来提高损伤定位精度的弱监督分割模型。
图1 系统结构图

二、作者的方法

1、数据获取 前后端交互子模块(Front End Interaction)旨在获得高质量的视频。 它使用移动推理引擎调用部署在移动设备上的深度学习模型来指导拍摄过程。 首先,视频中应该出现车牌和VIN码(它包含了汽车的制造商、发动机、底盘序列号等性能信息),并自动识别内容,以验证车主的身份以及以防欺诈。 其次,引导用户在更远的距离拍摄视频,然后更近地捕捉损坏细节。 距离由移动分类模型确定。 拍摄期间,视频等信息异步上传到云端进行进一步处理。

PS:这篇论文获取的是视频数据,而不是普通的图片数据。

2、损伤识别(不涉及零件)
汽车损伤识别可以被定义为多类别的检测或分割任务。这个过程需要大量的被标注的样本用来训练模型,但是对于分割任务来说这是不切实际的,因为分割数据集标注耗时基本是检测任务的5倍。 此外,在许多情况下,很难定义损伤纹理的边界。 我们采用two-stage的检测模型,并添加一个弱监督的语义分割分支,从Bounding box标签中获得更精确的像素级分类结果, 检测和分割分支的预测进一步融合。 此外,还分析了多帧而不是单一图像,以利用视频的时间一致性和内容互补性来过滤一些看起来像损伤图像从而来降低噪声。

PS:这个地方作者提到了损伤识别可以被定义为detection或者segmentation任务,但是由于segmentation任务相比detection任务的标签工作更加耗时,所以作者选择在一个two-stage的detection model(例如Faster-RCNN)基础上添加一个弱监督的语义分割分支(作者的意思应该是它们的标签是使用的bounding box标签,而不是mask标签,为了改善这个bounding box标签不够精准的问题,作者还是添加了一个弱监督的语义分割分支。个人感觉作者的模型和Mask-RCNN模型是基本类似的,但是我不太了解弱监督的语义分割,后续再调研一些),从而来提升效果。

3、损伤零件的定位
距离较远的帧更适合于汽车部件识别,而距离较近的帧更适合于损伤细节识别。因此,这两种帧都是通过帧选择算法自动从视频中提取的,而不是由用户拍摄多张照片。我们改进了Mask-RCNN来检测损坏部件,同时对部件进行准确的分割。多帧的结果被融合,以准确地定位损坏的组件。

PS:这个地方作者没有说如何将视频里的多个帧进行融合的orz

4、决策和维修计划的确定
给定损伤和零件的识别结果作为输入,决策模块学习和预测最终损坏的零件和零件损坏严重程度。识别和决策模块不被设计为端到端,因为在每个单一阶段,可以组合多个模型来提高精度,然后系统可以将算法结果转化为基于定价算法的修复方案。

三、系统的使用流程

当发生车祸时,车主可以使用我们的系统评估损害赔偿。具体来说,用户遵循拍摄指导,应该扫描车牌,然后VIN代码,以验证汽车身份的一致性及其损坏。 然后,用户将在更远和更近的距离拍摄损坏部件的视频。在捕获过程中,视频被上传到云中以识别损坏。最后将损坏的结果返回给用户。损坏的结果也附有估计价格,用户可以决定亲自索赔或修理。

四、个人总结

这篇论文总共只有两页,具体涉及的算法细节不多,并且蚂蚁金服团队使用的是视频数据而不是普通的图片数据。比较关键的问题是如何将视频中近景数据信息和远景的数据信息进行融合,论文中也没有具体说明,本篇博客就是简单的记录一下,希望对有需要的朋友有所帮助。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值