《UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment》
Axiv:2024.6
0. 摘要:
现有的方法通常忽视了IAA和IQA之间主观感知的潜在联系,阻碍了人类主观感受于任务无关的共享学习的表示。本研究提出了一个质量和美学统一的UniQA。(此前方法也关注到美学信息在判断图像质量的时候是一个重要的方面,但是大多都是将美学分支作为额外的角度补偿图像失真信息,例如DOVER,或者是将IQA和IAA作为两个不同的任务混合训练,使模型获得综合的图像感知能力,例如Q-ALIGN。
1. 介绍
作者思考了这样一个问题:Can we develop a foundational model with robust visual assessment perceptions consistent with human to benefit both IQA and IAA tasks?
作者提出的方法是基于预训练,建立一个联合的评估图像质量和美学的模型,考虑到现存的方法大多是拟合MOS分,而导致他们的模型对更大尺度的数据集有bias,所以作者想到提出用文本描述构建一座桥梁,