如何同时处理庞大、稀有、开放类别的视觉识别?伯克利 AI 研究院提出了开放长尾识别方法

伯克利AI研究院针对计算机视觉中的开放长尾识别问题,提出OLTR方法,旨在同时处理庞大、稀有、开放类别的视觉识别。该方法在现实世界场景,如野生动物识别等应用中,能够有效提升分类准确性,尤其在稀有类别和开放类别上取得显著进步。
摘要由CSDN通过智能技术生成

雷锋网 AI 科技评论按:在计算机视觉领域,图像分类其实是一个最基本的问题,然后一旦遇到极端长尾、开放式的数据集时,即便是最基本的图像识别任务,也难以很好地实现。伯克利 AI 研究院基于对某段相关的经历的思考提出了「开放长尾识别」(OLTR)方法,据介绍,该方法可同时处理庞大、稀有、开放类别的视觉识别,是目前视觉识别系统评价中更全面、更真实的一种检验标准,它可以被进一步扩展到检测、分割和强化学习上。这一成果也在伯克利 AI 研究院上进行了发表,雷锋网 AI 科技评论编译如下。

现有的计算机视觉环境 VS 现实世界场景

有一天,一位生态学家来找我们。因为他用摄像机拍摄了很多野生动物的照片,希望运用现代计算机视觉技术,基于这些照片的数据库自动辨识拍到了哪些动物。这听起来是一个基本的图像分类问题,所以我们当时很自信,觉得肯定没问题。然而结果我们却失败了。那位生态学家提供的数据库是极端长尾且开放式的。通常,只要无法得到足够的训练数据,我们就会问对方,有没有可能提供更多的尾部类别数据,而忽略可能在测试数据中出现的一些开集类别。遗憾的是,要解决那位生态学家的问题,我们无法采用收集更多数据的做法。由于这些生态学家可能要花相当长的时间,才会在野外拍到他们计划拍摄的珍稀动物。为了拍到一些濒危动物,他们甚至必须等几年才能拍到一张照片。如此同时,新的动物物种不断出现,旧的物种同时正在消失。在这样一个动态变化的系统之内,类别的总数永远无法固定。而且,从动物保护的意义上说,识别新发现的稀有动物比识别数量还很多的动物更有价值。如果我们只能在数量众多的类别中很好地识别动物,那我们的方法永远都不会有什么实用价值。我们尝试了所有可能采用的方法,能想到的都试过了,比如数据增强、采样技术、小样本学习、不平衡分类,但没有一种现有的方法可能同时处理庞大的类别、稀有的类别和开放的类别(如图 1)。

如何同时处理庞大、稀有、开放类别的视觉识别?伯克利 AI 研究院提出了开放长尾识别方法

图1:现有的计算机视觉环境和现实世界的场景差距相当大。

自此以后,我们就一直在思考,现有的计算机视觉方法和现实世界的场景存在这么大的差距,最主要的原因是什么?不止是野生动物

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值