【翻译】卷积网络:一种模块化的观察(未完)

原文地址:《Conv Nets:A Modular Perspective
Post on July 8,2014

介绍

过去的几年里,深度神经网络在许多模式识别问题上取得了图片,包括计算机视觉和声音识别领域。产生这些成果的原因之一是一种特别的神经网络,称为卷积神经网络
从本质上说,卷积神经网络可以被理解为一种对有许多完全相同拷贝的相同神经元。这使得网络在保持实际参数(描述神经元行为的值)的数量的同时,拥有大量的神经元并能表达计算量很大的模型,而同时这些需要学习的参数数量却是相当小的。
这里写图片描述
-一个2D卷积神经网络示意图-
这种让一个神经元拥有多个副本拷贝的技巧,大致类似于数学和计算机科学中的函数抽象。编程的时候,我们只实现一次函数,却在很多地方可以调用它-而不用在大量的需要使用的地方再次编写这些代码-这让我们可以快速的编程,并且更不容易出错。类似的,一个卷积神经网络能学习一个神经元一次,却能在很多地方来使用,这使学习模式更简单,并且犯更少的错误。

卷积神经网络结构

假设你想让一个神经网络来检测音频样本,并预测样本是否含有人说话的声音。你可能需要做很多分析工作。音频样本从不同的时间点获得,并均匀分隔开。【注:x0~8组成一个音频样本】
这里写图片描述
使用神经网络对它们分类的最简单的方法就是将它们链接到一个全连接层。全连接层有大量的神经元,而每一个输入连接到每一个神经元上。
这里写图片描述
一些更精巧的的方法会考虑到属性的“对称性”,这对搜索数据有利。我们更关心数据的局部属性:在给定时间里的声音频率是多少?它们增加了还是减少了,诸如此类。
我们在所有时间点上都关注这些相同的属性。这对了解数据中开始的频率,中间的频率,结束时的频率都很有用。更进一步,要注意到这些都只是音频数据的局部属性,我们只要通过音频样本的一个小窗口就能去检测它们。
那么,我们着手建立一组神经元,A,关注数据的一个小的时间片段。所有的A可以查看所有的片段,并计算得出正确特征值。然后,这个卷积层的输出将输入到一个全连接层,F
这里写图片描述
如上图,一个A只关注两个点构成的小片段。在实际使用中,并不会如此,实践中通常一个卷积层的窗口通常搜索的数据量比较大。
在下图中,A关注3个点。这同样不是真实的应用场景,这只是为了展示A是如何连接到大量的点。
这里写图片描述
卷积层的一个很好的属性是他们能够进行组合。你能将一层卷积层的输出作为另一个卷积层的输入。随着层数叠加,网络能够检测到更高级的更抽象的特征。
在下面的例子中,有一组的神经元,BB是在前一个卷积层之上堆叠的一个新的卷积层。
这里写图片描述
卷积层通常与池化层交错开堆叠。实践中,“最大池化层”的形式十分流行。
从更高层面的视角出发,我们不关心特征所呈现的精确的时间点。如果一个频率的变化出现的早一些或迟一些,并没有什么区别。
最大池化层接收到上一层输出的所有被切成小块的特征。这些输出是从上一层某一个区域提取出来的,并不包含精确的位置。
最大池化层的功能类似于“缩小”。这让它后面的卷积层能基于更大的数据片段进行工作。因为最大池化层之后的一个小片段实际映射了上一层很大的一个片段。它们还使我们对数据的一些非常小的转换保持不变。(注:如果两个数据样本只有些微差异,经过最大池化的“缩小”后,两个数据可能是一样的。因为缩小会忽略一些细节)
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值