提高用户体验质量是音视频媒体平台共同面对的关键问题。2022年10 月 15 日“小红书 REDtech 青年技术沙龙”活动中,我们有幸上海交通大学电子信息与电气工程学院电子系翟广涛教授带来分享《媒体体验质量评价》,从人眼视觉系统引入,翟教授详细阐述了媒体体验质量评价工作的意义,以及具体技术思路。
翟广涛:研究领域为多媒体智能,发表国际期刊及会议论文四百余篇,被引用 1 万余次,入选爱思唯尔中国高被引科学家。曾获得全国优博、优青、青年拔尖人才、杰青等荣誉,主持 NSFC 重点、国家重点研发等项目。获中国电子学会自然科学一等奖、PCS2015 和 IEEE ICME 2016 最佳学生论文奖、IEEE TMM 2018 最佳论文奖和 2021 最佳论文提名奖、IEEE MMC Workshop 2019、CVPR DynaVis Workshop 2020、IEEE BMSB 2022 最佳论文奖等,任 Displays(Elsevier) 主编、《中国科学:信息科学》编委、IEEE CAS MSA/ SPS IMVSP 成员、中国电子学会青年科学家俱乐部副主席、中国图象图形学学会理事、上海市图像图形学学会副理事长。
以下内容根据翟老师现场报告整理
人眼视觉系统
人眼是获得信息的来源,但是信息进入人眼之后又经过了非常复杂的处理,才被我们感知到,一般来说我们认为信息通过视网膜获得之后,通过视神经到了外膝体,然后到了视觉皮层进行进一步的加工,视觉底层可以分为 V1、V2、V3、V4、MT等区域。
根据统计,人类的脑皮层上超过 50% 的神经元,都和人类的视觉感知有关系。也就是说视觉感知是非常复杂的过程。我们看到的东西和我们在视网膜上获得的视觉刺激往往是不一样的。
举个例子,如图 1,离屏幕近一点盯着中间的小红点,我们会发现,盯着小红点稍久一些时周边的蓝色圆圈消失了。这个现象叫做 Troxler Fading,当周边的视觉给我们提供的信息非常有限,不再发生变化的时候,人脑就会自动忽略掉,让我们的眼睛“视而不见”。这个蓝圈在视网膜上一直是成像的,但是我们的大脑认为它不存在,让我们看不见它,也就是说人脑对视觉处理的过程是远比视网膜信号要复杂的。
Martinez-Conde, S., Macknik, S. L. & Hubel, D. H. (2004) 'The Role of Fixational Eye-Movements In Visual Perception', Nature Reviews Neuroscience, 5: 229-240;
比如下图,它本身是静止的图片,但是我们看起来会产生一点旋转。周边视觉会因为眼球震颤等原因会产生上一个时刻和下一个时刻在视网膜上成像的位置差,这种位置差导致我们产生图像在转动的错觉,图像没有动但我们感觉动了,也说明很多对外部世界的认知和事实是有差距的。
ANDREY KORSHENKOV/SHUTTERSTOC
这里有一个有意思的图像&#x