用于自动视觉分类的深度学习人类思维 Deep Learning Human Mind for Automated Visual Classification

阅读本文须知:本文是2017年IEEE Conference on Computer Vision and Pattern Recognition的一篇会议,但是在The Perils and Pitfalls of Block Designfor EEG Classification Experiments中对本文提出的方法产生了质疑,下一篇博客将讲述这篇文献。

  1. 摘要
    1)如果有效的使用读心术, 我们将人类的视觉能力转换为计算机视觉的方法。本文将论述一个由大脑信号驱动的视觉对象分类器来解决这个问题。本文利用由视觉对象刺激与循环神经网络(RNN)相结合的脑电图数据来学习(在阅读心理作用中视觉类别的)鉴别性大脑活动。然后,我们通过训练一个基于卷积神经网络(CNN)的回归将学习到的能力转移到机器上,将图像投影到学习的流形上(也就是RNN编码器从脑电信息中学习到的特征),从而允许机器使用基于人脑的特征进行自动匹配的视觉分类。这里的回归就是让相同类的特征尽可能的相似。
    2)本文使用128脑电帽记录6名被试观看40类,每类50张照片的脑电信号。本文提出的基于RNN的基于脑信号的目标类识别方法的平均准确率达到83%左右,在学习EEG视觉目标表征方面大大优于现有的方法。对于自动对象分类,我们的人脑驱动程序获得了与强大的CNN模型相当的竞争性能,并且它还能够在不同的视觉数据集上进行推广。

  2. 本文使用的模型
    在这里插入图片描述
    图中的大致过程分为两个步骤(阶段):

  • 采集脑电数据输入到RNN中去,构造编码器(用来提取特征,区分不同的对象类别),编码器产生EEG信号的特征表示,使用这个特征进行有监督的训练分类器。(理解被试的想法、读取思维阶段)
  • 使用测试照片训练CNN、构造CNN回归器,通过对比编码器产生的特征向量CNN产生的特征向量进行回归任务,然后把回归的结果输入到分类器中,分类器给出分类结果。(把被试视觉能力转化到机器阶段)
    注:
    1)将编码器产生的EEG特征表示 输入给CNN回归器就是将人的视觉能力转移给机器。
    换种说法也就是将与目标类别相关的脑电图信号解码纳入计算机视觉方法
    换种说法就是有效地将图像投影到新的基于生物的流形中,将从根本上改变对象分类器的开发方式(主要是在特征提取方面)。
    2)在记录每个脑电图序列时,通过提供与所显示图像相关联的类标签,通过梯度下降进行编码器和分类器训练。

3.其他说明
本文对比了几种CNN结构,结果发现GoogleNet提取特征±kNN回归达到了最好的结果,但是本文使用的方法(把CNN的softmax层变为回归层)获得了差不多(和最好的结果)的结果,因此本文觉得这种方法可行(上述模型的方法)。
结果:
在这里插入图片描述

4.本文中创新点:

  • 提出了一种深度学习方法来分类由视觉目标刺激引起的脑电图数据,在处理目标类的数量分类准确性方面都优于最先进的方法。
  • 我们提出了第一个由大脑信号驱动的计算机视觉方法,即第一个使用直接从视觉场景分析中涉及的人类神经过程中提取的视觉描述符的自动分类方法。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: PointNet是一种深度学习模型,专门用于处理3D点云的分类和分割任务。它接受一个由点组成的集合作为输入,可以学习到每个点的特征表示,并将它们组合起来以获得整个点云的全局特征。PointNet还具有旋转不变性,因此可以处理具有不同旋转角度的点云数据。这使得PointNet成为3D视觉领域的重要工具,用于处理各种任务,例如物体检测、语义分割和场景重建等。 ### 回答2: PointNet是一种基于点集的深度学习架构,用于3D分类和分割任务。它于2017年由Qi et al.提出,并已在许多3D视觉应用中得到了广泛应用。PointNet的主要思想是将点云看作无序的点集,并设计了一种处理这种无序集合的新型神经网络。 传统上,对3D对象进行分类和分割的方法通常需要将对象转换为网格或体素,然后将其表示为规则形状的网格或体素。这些方法在处理复杂几何形状时存在一定的困难,并且采用的处理方法需要严格的输入格式。 相比之下,PointNet可以直接处理点云数据,不需要对其进行转换或训练数据格式的严格要求。在PointNet中,输入是一组点的集合,每个点有三个坐标和其他任意的属性,如颜色或法线。这些点无序,因此PointNet用最小误差投影(Minimum Error Projetion)来解决这个问题。这个网络的中心思想是使用点集的对称性,将输入点云映射到一个向量空间中,该空间旨在保留输入点集的所有信息。 为了处理点集的对称性,PointNet使用了两个网络——一个是点特征提取网络,另一个是全局特征提取网络。点特征提取网络处理单个点的信息,并产生一个新的点特征。全局特征提取网络则将所有点的特征表示合并到一个全局特征向量中。这种设计使PointNet可以生成对称空间中的全局特征向量,从而保持了输入的无序性质,并确保了在不同尺度和物体位姿下的泛化能力。 总的来说,PointNet为点云的处理提供了一种新颖的方式,可以在保持输入的无序性质和提高处理效率方面取得良好的表现。它的成功应用在3D分类和分割任务中证明了其高效性和实用性,并为未来的3D深度学习研究工作提供了有价值的经验。 ### 回答3: PointNet是一种用于3D分类和分割的深度学习算法。这种算法突破了传统方法中对于3D形状进行预测的限制,通过学习点云中点的全局特征来进行预测,并且在Caltech-101 或 ModelNet40等数据集上取得了远超其他算法的效果。 PointNet算法首先通过应用全连接网络将点云中的每个点转换成一个低维的向量表示。该算法还采用了一个局部特征学习模块,该模块仅对于每个点的局部序列进行操作,以捕获点云的局部特征。该算法使用了max pooling的形式将每个点的局部特征进行汇总,以得出整体的特征表示。最后,算法通过多个全连接层将点云的全局特征映射到所需的目标(如类别标签或分割结果)。 值得注意的是,PointNet算法在3D形状分类和分割问题上的效果非常显著,并且其鲁棒性非常好,即使在存在噪声和缺失数据的情况下,该算法也能够产生准确的结果。此外,PointNet算法还可以通过加入循环神经网络模块来实现对于时间序列数据的处理。 总的来说,PointNet算法是一种极具前景的深度学习算法,其具有高效、准确和鲁棒的特点,可以应用于3D形状预测、3D图像识别、机器人操作等领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值