阅读本文须知:本文是2017年IEEE Conference on Computer Vision and Pattern Recognition的一篇会议,但是在The Perils and Pitfalls of Block Designfor EEG Classification Experiments中对本文提出的方法产生了质疑,下一篇博客将讲述这篇文献。
-
摘要
1)如果有效的使用读心术, 我们将人类的视觉能力转换为计算机视觉的方法。本文将论述一个由大脑信号驱动的视觉对象分类器来解决这个问题。本文利用由视觉对象刺激与循环神经网络(RNN)相结合的脑电图数据来学习(在阅读心理作用中视觉类别的)鉴别性大脑活动。然后,我们通过训练一个基于卷积神经网络(CNN)的回归将学习到的能力转移到机器上,将图像投影到学习的流形上(也就是RNN编码器从脑电信息中学习到的特征),从而允许机器使用基于人脑的特征进行自动匹配的视觉分类。这里的回归就是让相同类的特征尽可能的相似。
2)本文使用128脑电帽记录6名被试观看40类,每类50张照片的脑电信号。本文提出的基于RNN的基于脑信号的目标类识别方法的平均准确率达到83%左右,在学习EEG视觉目标表征方面大大优于现有的方法。对于自动对象分类,我们的人脑驱动程序获得了与强大的CNN模型相当的竞争性能,并且它还能够在不同的视觉数据集上进行推广。 -
本文使用的模型
图中的大致过程分为两个步骤(阶段):
- 采集脑电数据输入到RNN中去,构造编码器(用来提取特征,区分不同的对象类别),编码器产生EEG信号的特征表示,使用这个特征进行有监督的训练分类器。(理解被试的想法、读取思维阶段)
- 使用测试照片训练CNN、构造CNN回归器,通过对比编码器产生的特征向量和CNN产生的特征向量进行回归任务,然后把回归的结果输入到分类器中,分类器给出分类结果。(把被试视觉能力转化到机器阶段)
注:
1)将编码器产生的EEG特征表示 输入给CNN回归器就是将人的视觉能力转移给机器。
换种说法也就是将与目标类别相关的脑电图信号解码纳入计算机视觉方法。
换种说法就是有效地将图像投影到新的基于生物的流形中,将从根本上改变对象分类器的开发方式(主要是在特征提取方面)。
2)在记录每个脑电图序列时,通过提供与所显示图像相关联的类标签,通过梯度下降进行编码器和分类器训练。
3.其他说明
本文对比了几种CNN结构,结果发现GoogleNet提取特征±kNN回归达到了最好的结果,但是本文使用的方法(把CNN的softmax层变为回归层)获得了差不多(和最好的结果)的结果,因此本文觉得这种方法可行(上述模型的方法)。
结果:
4.本文中创新点:
- 提出了一种深度学习方法来分类由视觉目标刺激引起的脑电图数据,在处理目标类的数量和分类准确性方面都优于最先进的方法。
- 我们提出了第一个由大脑信号驱动的计算机视觉方法,即第一个使用直接从视觉场景分析中涉及的人类神经过程中提取的视觉描述符的自动分类方法。