(作者 | 杨晓凡 转自AI科技评论)
当前的基于 CNN 的图像识别模型确实能在许多任务中得到很高的识别准确率、也得到了许多实际应用,但 CNN 模型的泛化性和鲁棒性仍然远逊于人类视觉 —— 面对经过细微修改的、或者带有噪声的图像,人类的视觉识别几乎不受影响,而 CNN 的识别准确率则可能大幅波动;场景和视角也能显著影响 CNN 的表现,更别提从很少的样本学习物体识别了。
如果说「视觉智慧」的至高水准是具有不变性的神经表征,以及图像经过复杂变换以后仍然能够识别处理的泛化能力的话,人类的/生物的视觉系统显然具有视觉智慧,而现代的 CNN 并不具备;研究生物视觉系统中视觉智慧的来源、并尝试在人工设计的视觉系统中重现它,近些年来都是神经科学领域以及机器学习领域的热门研究课题。
最近,NeurIPS 2019 论文《Learning From Brains How to Regularize Machines》(从大脑学习如何做机器的正则化)就在这个问题上做出了有趣的尝试。此前我们介绍过日本研究人员的成果,他们从人脑的 fMRI 成像解码重现出眼睛看到的画面。但根据大脑的神经活动直接影响人工神经网络学习表征的过程,从而影响模型在分类任务中的表现,这个方法就相当新颖有趣。
论文原文:https://arxiv.org/abs/1911.05072
1.再次尝试模仿生物视觉系统