【神经网络和深度学习-开发案例】 第三章 学习与梯度算法

【神经网络和深度学习】

第三章 学习与梯度下降算法


案例:使用神经网络识别手写数字

既然我们已经为我们的神经网络设计了一个模型,它怎么能学会识别数字呢?我们需要的第一件事就是从所谓的训练数据集中学到的数据集,我们将使用MNIST的数据集,它包含数以万计的手写数字的扫描图像,以及它们正确的分类。NIST的名字来源于一个事实,那就是它是由美国国家标准与技术研究所收集的两个数据集的一个修改子集。以下是一些来自MNIST的图片:

这里写图片描述

正如你所看到的,这些数字实际上和第一章开头所显示的是一样的,是一种需要识别的挑战。当然,在测试我们的网络时,我们会要求它识别不在训练集里的图像!

MNIST的数据分为两部分。第一部分包含6万张图片作为训练数据。这些图片是来自250人的扫描笔迹样本,其中一半是美国人口普查局的雇员,其中一半是高中生。这些图像是灰度级的,28x28像素。MNIST数据集的第二部分是作为测试数据使用的10000张图像。再一次,这些是28x28的灰度图像。我们将使用测试数据来评估我们的神经网络是如何学会识别数字的。为了使这成为一个良好的性能测试,测试数据来自于不同的250人,而不是最初的培训数据(尽管仍然是人口普查局雇员和高中生之间的一个群体)。这有助于让我们相信,我们的系统能够识别那些在训练中没有看到的人的数字。

我们将使用符号x来表示训练输入。将每个训练输入 x x 作为28x28=784维矢量的一个维度向量。矢量中的每一个元素代表图像中单个像素的灰色值。我们将用 y = y x 表示相应的期望输出,其中 y y 10 维向量。例如,如果一个特定的训练图像x,描绘的是 6 6 y ( x ) = ( 0 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 0 , 0 ) T 是来自神经网络的期望输出值。请注意, T T 是转置操作,将行向量变成普通(列)向量。

我们想要的是一种算法,它可以让我们找到权重和偏差,这样网络的输出就可以近似于 y x ,所有的训练输入都是 x x 。为了量化我们实现这个目标的程度,我们定义了一个成本函数,有时被称为损失或目标函数。我们在这本书中使用了术语成本函数,但是你应该注意其他的术语,因为它经常被用于研究论文和其他关于神经网络的讨论。

这里写图片描述

在这里, w 表示网络中所有权重的集合, b b 表示所有的偏差, n 是培训输入的总数, a a 是当 x 输入时来自网络的输出的矢量,而总和超过了所有的训练输入 x x 。当然,输出 a 依赖于 x x w b b ,但是为了保持符号的简单,我没有明确指出这种依赖。符号 v 表示向量v的一般长度函数。我们把它叫做二次成本函数;它有时也被称为平均平方误差或者是MSE。检查二次成本函数的形式,我们看到 Cwb C ( w , b ) 是非负的,因为和式中的每一项都是非负的。此外, Cwb C ( w , b ) 的成本也变得很小。 Cw

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
到目前为止,人们提出了许多神经网络模型,其中应用最广泛的是前馈神经网络.早期前馈神经网络中只含有求和神经元,在处理复杂非线性问题效率很低.后来,人们将求积神经元引入到前馈神经网络中,用以增加网络的非线性映射能力,提高网络的学习效率.这样的网络可以统称为高阶前馈神经网络.但是,如果只通过输入节点值的简单乘积构造求积神经元以增加网络的非线性映射能力,随着输入样本维数的增加,所需权值的数量呈指数阶增加,即出现“维数灾难”.Pi-Sigma 神经网络是1991 年Y.Shin提出的一种具有多项式乘积构造的求积神经元的高阶前馈神经网络.该网络既提高网络的非线性映射能力,又避免了“维数灾难”的出现.此后,为了提高该网络的应用能力,Y.Shin、A.J. Hussaina、C.K. Li 等又以Pi-Sigma 神经网络为模块构造了更复杂的网络结构,并在模式分类和函数逼近等问题中取得成功应用. 学者们对只含有求和神经元的前馈神经网络的收敛性、泛化能力等理论问题已有深入研究,而对含有求积神经元的高阶前馈神经网络的研究主要集中在实际应用上,相关理论方面的研究还很薄弱,仍存在许多有待解决的基本理论问题.因此,从理论上分析 Pi-Sigma 神经网络学习算法学习能力和收敛性具有很重要的实际意义,这些问题的研究和解决将对 Pi-Sigma 神经网络的应用起到重要的促进作用. 梯度算法是一种简单又常用的神经网络训练算法,从样本的输入方式看,包括批处理和在线两种运行方式:从权值向量的更新方式来看,包括同步和异步两种更新方式.本论文主要研究用于训练 Pi-Sigma 神经网络的几种梯度学习算法的相关理论问题,包括学习效率、收敛性等.另外,在网络结构优化方面做了一些尝试. 本论文的结构及内容如下: 第一章回顾有关神经网络的一些背景知识. 第二章指出随机单点在线梯度算法训练 Pi-Sigma 神经网络过程中因权值较小会降低网络收敛速度的问题,并从理论上分析了这种现象产生的原因及权值更新受影响的程度.同,为解决该问题,给出了一种带惩罚项的随机单点在线梯度算法第三章讨论 Pi-Sigma 神经网络异步批处理梯度算法和带动量项的异步批处理梯度算法的收敛性问题.将动量项引入到训练 Pi-Sigma 神经网络的异步批处理梯度算法中,有效地改善了算法学习效率,给出误差函数的单调性定理及该算法的弱收敛和强收敛性定理及证明,并通过计算机仿真实验验证理论分析的正确性. 第四章分析 Pi-Sigma 神经网络在线梯度算法的收敛性问题并给出收敛性结论. 第五章提出基于灰色关联分析的一种新的剪枝算法,并将其用于训练前馈神经网络 (包括多层前馈神经网络和 High-Order 神经网络).该算法运用狄色关联分析对比网络各节点输出值序之问联系的紧密程度,实现网络结构的动态修剪.训练后的神经网络具有较合理的网络拓扑结构和较好的泛化能力.实例验证该算法的合理性、有效性.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值