Assessing Image Quality Issues for Real-World Problems

摘要

这篇文章引入了一个新的大规模数据集,该数据集将图像质量问题的评估与两个实际的视觉任务联系在一起:给图像加字幕和视觉问题解答。首先,我们为盲人拍摄的39,181张图像进行识别,以确定每张图像的质量是否足以识别内容,以及从六个选项中观察到的图像质量如何。这些标签是我们做出以下贡献的关键基础:(1)确定图像是否不足以识别内容并因此无法添加字幕;(2)确定图像包含六个质量缺陷中的哪一种;(3)确定视觉问题无法解决是否是因为内容无法识别,或是感兴趣的内容从视场中丢失;(4)通过自动确定图像质量是否不足,从而更有效地创建大型图像字幕数据集。

介绍

对于许多现实世界的计算机视觉应用程序而言,低质量图像是不可避免的现实。
在旨在识别质量问题的研究与旨在执行下游视觉任务的研究之间存在很大的脱节。对于专注于发现图像中观察到的质量问题的研究人员而言,他们的进步很大程度上来自于人工构造的环境,他们在训练和评估可公开获取的数据集上的算法,这些数据集是通过对高质量图像进行扭曲来模拟的质量问题。对于专注于特定任务的研究人员来说,他们的大部分进步是来自缺乏低质量图像的环境。这是因为支持此类算法开发的可公开访问的通用数据集的创建者通常会过滤掉最终数据集中质量不足的候选图像。因此此类数据集缺少使训练算法能够识别图像质量何时不足以完成给定任务的数据。
为了将图像质量评估与实际视觉任务联系起来,我们引入了一个新的图像质量评估数据集,该数据集是从实际用例中产生的。数据集是围绕39,181张由盲人拍摄的图像构建的,他们使用VizWiz手机应用程序拍摄图像、提出问题并上传。用户提交了这些图像和视觉问题(即带有问题的图像),以克服他们在日常生活中面临的真实视觉挑战。
想要实现的实际视觉任务有以下两种。可识别性分类任务:图片的内容是否因为质量缺陷而不可识别。可回答性分类任务:图片的内容是否因为质量缺陷或没有问题对应的内容而不可回答。

建造数据集

文章将数据集的范围限制在质量问题上,这些问题会阻碍盲人的日常生活。在众包平台Amazon Mechanical Turk上对数据集打标签。

质量缺陷

这个数据集包括以下类别:模糊(图像模糊吗?);明亮(图像太亮吗?);黑暗(图像太暗吗?),障碍物(摄影者的手指遮住镜头的场景是否被遮挡或其他意外对象?);取景(图像中是否缺少必要的物品的一部分?);旋转(是否需要旋转图像才能正确观看?);其他没有质量问题

Alt
上图是数据集中图像质量缺陷与可识别性之间的占比。下图是数据集中图像的两种质量缺陷的相关性,计算相关系数的公式在其后给出。
Alt
Alt

可回答性

可回答性与可识别性之间没有必然的联系,因此为回答盲人提出的问题,图片的可回答性也很重要。如下图所示,不可回答的图像既有可能是因为不可识别,也有可能是因为没有包括问题所对应的内容。
Alt

算法

可识别性分类任务

文中使用在ImageNet上预训练过的ResNet-152网络提取特征,之后接全局池化层、两个全连接层和一个sigmoid。如下图所示,与其他方法比较以验证其方法的有效性。
Alt
在这个方面,文章还做了质量缺陷分类任务。方法是XceptionNet、三个全连接层和一个sigmoid。效果如下图所示。
Alt
该算法在帮助创建大规模训练数据集方面有优势。为了支持这项工作,我们将数据集分为三组。一组用于训练我们的图像不可识别算法。第二组用于训练我们的图像字幕算法,我们将其称为字幕训练集。第三组用于评估我们的图像字幕算法,我们称其为字幕评估集。
针对八个评估指标,文章评估了两种在每个训练集上独立训练的最新图像字幕算法,结果如下图所示。总而言之,这表明使用可识别性预测系统的好处是可以在众包平台添加字幕时(通过首先删除无法识别的图像)节省时间和金钱,而不会降低下游训练的图像字幕算法的性能。
Alt

可回答性分类任务

文章的方法扩展了上下VQA模型,它以编码图像特征和配对问题作为输入。图像特征可以是ResNet-152 提取的网格级特征,输入的问题首先由GRU单元编码。然后自上而下的注意力模块从编码的问题表示形式和输入图像特征计算加权图像特征。图像和问题特征通过逐元素乘法耦合。该耦合特征由预测模块处理以预测可回答性和可识别性。在模型的末尾采用两种不同的激活函数进行最终预测:第一个是softmax,预测三类:可回答、无法识别和内容信息不足(在图像中找不到答案);第二个激活函数是两个独立的Sigmoid:一个用于可回答性、另一个用于可识别性。
Alt
数据集和所有代码可在vizwiz网站上公开获得。

个人想法

这篇文章做的工作还蛮多的,建立了一个数据集并提出了两个分类算法。它的内容通过针对辅助盲人拍照的APP以及解决遇到的问题而展开。因此这里面所涉及到的图像质量缺陷更是盲人更可能在生活中遇到的类型,而不是普通IQA所针对的那些失真。这篇文章既涉及图像质量评估,也涉及自然语言处理。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值