R-CNN的Introduction部分（上）

最新推荐文章于 2024-08-27 15:17:04 发布

鱼儿会飞吗

最新推荐文章于 2024-08-27 15:17:04 发布

阅读量954

点赞数 16

分类专栏：论文精读文章标签： cnn 人工智能神经网络

本文链接：https://blog.csdn.net/qq_34425255/article/details/136834289

版权

论文精读专栏收录该内容

14 篇文章 0 订阅

订阅专栏

文章探讨了特征在人工智能中的关键作用，指出像素级特征如SIFT和HOG的进步缓慢，因为它们未能像人脑一样进行深层次的特征抽象。作者提到福岛邦彦的neocognitron模型和YannLeCun的LeNet-5在解决这一问题上的贡献，强调了卷积神经网络的分层处理和不变性的重要性。

摘要由CSDN通过智能技术生成

来看第一条，就是介绍，这个介绍往往是介绍当前研究领域的痛点，目前达到的最好的水平，以及别人的一些不足。

发现开头第一句就写了，特征很重要，特征是非常重要的，因为我们需要通过特征来进行目标检测，回归，分类，定位，有好的特征，就有好的性能，没有好的特征，就没有好的性能，所以人工智能界有一句话叫做Garbage In, Garbage Out!

喂进去的数据是差数据，训练出来的模型是差模型，这里的话，你提取的特征是差特征，那么你的任务的性能也是很差的。在过去的十几年，有许多计算机视觉的任务，都使用了像SIFT，HOG这样的人工设计的经典计算机视觉领域提取的特征，这些特征都是像素尺度，通过计算邻域像素，通过像素信息来反映的，看似这些特征很高端，但是如果我们看权威的PASCAL VOC的任务的性能上，我们发现近几年来增长是很缓慢的，无非是把不同的模型集成在一起，或者是采用了一些微小的改动，在现有成功的方法上进行了一些微小的改动，没有什么本质性的革命性的突破，根源是什么呢。

根源是SIFT，HOG和LOG这些特征都是像素层面的，捕获的是团块，方向的这些空间像素信息，那它其实就类似于灵长类大脑的视觉皮层的V1细胞，V1细胞就好比是卷积神经网络的前几层卷积层，提取的是一些底层的特征。就是方向，颜色，边缘，转角，斑块，并没有把这些特征整合抽象特化成真正的语义特征，但我们都知道，在人类的大脑中，这个V1细胞只是一开始，更重要的是后续的一系列的高级神经中枢的分层处理，就是顺流而下的神经中枢的逐层处理，来逐渐把这个特征特化抽象，最终变成一个语义特征，但现在的这些方法，使用的这些特征，无非就是V1细胞识别的特征，还差的远，所以我们看到了也许有很大的进步潜力，可以通过分层的多阶段的处理方法，来实现这个功能。

其实很早就有人想到这一点了，著名的日本科学家，福岛邦彦，这个老爷子非常厉害，这个老爷子八九十岁了，还在每天工作，他在1979年提出来了一个重要概念叫neocognitron，神经认知机，其实他就在这篇论文中，他就构想了一种能够顺流而下的分层多阶段的处理图像信息的一种模型，非常类似于现在的卷积神经网络，其实现在卷积神经网络的雏形包含卷积层怎么弄，池化层怎么弄，下采样怎么弄，都在这篇论文里面有详细的介绍，这篇论文的名字放这里了，感兴趣可以看一下，这个研究实际上是受1958年Hubel和Wiesel的实验启发，Hubel和Wiesel干了什么事情呢，看过CS231n的同学都知道，第一讲就讲了这个实验，把电极插在了猫大脑里面，给猫看各种各样的图片，发现视觉是分层的，不同的神经元对不同的视觉元素感兴趣，给猫看不同的视觉的元素，会激活猫大脑皮层中不同区域的神经元，福岛邦彦就在这个实验的基础上，提出了一种类似大脑仿生的处理图像视觉信息的一个模型，叫神经认知机，其实就类似于今天的卷积神经网络，是一个biologically仿生的模型。

是仿生的，分层的，可以提取平移不变性的理论模型，平移不变性是指无论这个猫出现在图像中的哪个区域，左上角，右上角，全图，上方，下方，那么最终模型提取的抽象语义特征都是猫，所以从变化的图像中提取不变的信息，这就是不变性，invariant，卷积神经网络就可以实现这个功能，关于这个不变性，在讲解卷积神经网络那个章节有详细介绍，在预备知识里，福岛邦彦的神经认知机是早期的一个探索，但是只是一个理想模型，缺乏一个监督学习的训练算法，而Yann LeCun弥补了这个鸿沟，弥补了这个痛点，填补了这个缺失的算法，他的研究就是LeNet-5，识别手写数字的卷积神经网络，使用随机梯度下降优化器，和反向传播算法，来训练卷积神经网络，这就其实是把福岛邦彦的神经认知机变成了现实，并且对它进行了延伸。

鱼儿会飞吗

关注

16
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
R-CNN的Introduction部分（上）

在过去的十几年，有许多计算机视觉的任务，都使用了像SIFT，HOG这样的人工设计的经典计算机视觉领域提取的特征，这些特征都是像素尺度，通过计算邻域像素，通过像素信息来反映的，看似这些特征很高端，但是如果我们看权威的PASCAL VOC的任务的性能上，我们发现近几年来增长是很缓慢的，无非是把不同的模型集成在一起，或者是采用了一些微小的改动，在现有成功的方法上进行了一些微小的改动，没有什么本质性的革命性的突破，根源是什么呢。的同学都知道，第一讲就讲了这个实验，把电极插在了猫大脑里面，给猫看各种各样的图片，
复制链接

扫一扫

专栏目录