《神经网络与深度学习》第一章使用神经网络来识别手写数字（二）- 用梯度下降来训练学习...

最新推荐文章于 2022-07-10 15:20:10 发布

weixin_30378623

最新推荐文章于 2022-07-10 15:20:10 发布

阅读量226

点赞数

原文链接：http://www.cnblogs.com/pathrough/p/5322736.html

版权

译者：本文为转载的英文文章，将逐步翻译成中文，本章内容侧重将随机梯度下降的训练方法，涉及不少数学知识，如果觉得枯燥直接看第三章，第三章给出了Python的实现代码和程序说明：http://www.cnblogs.com/pathrough/p/5855084.html

原文地址：http://neuralnetworksanddeeplearning.com/chap1.html

由于文章很长，编辑器很卡，翻译时我会分成几个篇章。上一章的地址是：http://www.cnblogs.com/pathrough/p/5297031.html

一个简单的用来分类手写数字的网络

我们已经定义了什么是神经网络，让我们回到手写识别这个话题。我们可以将手写识别的问题分成两个小问题。第一是将一张包含多个数字的图片分成多张包含一个数字的图片。例如，我们想将图片切开

成六个独立的图片

我们人类很容易解决这个分割的问题，但是对于计算机这是很难的工作。一旦图片被分开了，计算机就可以对单独的图片进行分类了。例如，我们想让我们的程序能够将下面第一张图片

识别为 5。

我们先不管图片切分的问题，我们集中讲解如何写一个程序来解决第二个问题，也就是如何将单个数字的图片分类。因为一旦你有了好的方法去分类单个数字的图片，那么图片切分的事情也不会很难。有很多方法来解决图片切分的问题。其中一个是用不同的方法切分图片使用单个数字的分类器来给每个切分的图片评分。如果对单个图片分类很有信心本次分割尝试就获得高分，反之获得低分。

为了识别单个数字，我们使用三层神经网络：

输入层包含输入像素的值的神经元。我们的训练数据由28X28个神经元组成。为了简单起见我在图中省略大部分输入神经元。输入的像素是灰度值，0.0表示白，1.0表示黑。从0到1黑色逐渐加深。

网络的第二次是隐藏层。我们指定在隐藏层的神经元的数量为n，我们会用不同的值来试验n。这个例子展示了一个小的隐藏层，只有

输出层包含10个神经元。如果第一个神经元激活，例如，输出

你可能会疑惑为什么我们使用10输出神经元。最终，网络的目的是告诉我们数字

为了明白为什么这样做，它让我们思考神经网络的第一原则。考虑一下我们使用10个输出的例子。让我们集中于第一个输出神经元，它用来决定是否输入的数字是0。它通过衡量隐藏层的线索。这些隐藏的神经元做了什么？好，假设第一个隐藏神经元的目的是检测图像是想下面的图片那样：

它可以通过着重衡量输入的相连的图像像素，着轻衡量其它输入。相似的方式，让我们假设在隐藏层的第二第三和第四个参数的目的是判断图片是否长成下面图片那样：

如你所想，这四个图像组成一个完整的0的图像，如下图：

因此如果所有因此的神经元都激活，那么我们可以下结论说这个数字是0。当然这不是唯一的线索来判断是否是0 - 我们可以通过其它方式来判断是否是0

如果神经网络用这种方法，我们可以给出一个合理的解释，为什么10个输出比4个输出的神经网络要好。如果我们只有四个输出，那么第一个的输出神经元会尝试决定最有意义的二进制数字是什么。这种方法不容易和上图的简单形状扯上关系。

现在，可以说这都是经验所得。没人说过三次神经网络一定和我说的那样，用隐藏神经元来检测简单的构成部分。可能一个更加聪明的学习算法会找到更加好的方法来让我们使用4个输出神经元的设计方式。

练习

There is有一种方法来判断数字的按位表现形式，就是通过增加一个额外的层到上面的三层网络。这个额外的层从前一个层的输出转换层一个二进制的表现形式，如下图。给新的输出层找到一系列权重和偏移量。加入第一个3层神经元第三层的输出正确

用梯度下降算法进行学习

现在我们设计了一个神经网络，它怎么通过学习来识别数字呢？第一件我们要做的是，我们需要一个数据集来学习，我们叫做训练数据集。我们使用 MNIST数据集，这个数据集包含几万个手写数字的扫描出来的图片，和他们对于的数值。数据集的图片像下图那样：

当测试网络的时候我们会用这个数据集之外的手写数字来进行。

这个数据集包含两个部分。其中 60,000个图片用来训练，由 250人来写出来的，一半人来自于政府雇员，另外一个是高中生。图片的是黑白的28X28像素。第二部分是 10,000 张图片用了测试神经网络的效果。也是 28X28黑白图片。我们用测试图片来评估神经网络数字识别的学习效果。为了测试的客观性这些测试测试图片有另外的250个人来手写的数字。

我们用x来表示训练的输入。

我们想要的算法是让我们找到权重和偏移量，然后对于所有训练输入x，来自于网络的输出约等于y(x)。为了量化对于我们的神经网络和理想目标的接近程度我们定义了一个消耗函数。有时候这个函数被称为

C (w, b) \equiv 1 2 n \sum x ∥ y ( x ) - a ∥ 2 . (6)

为什么引入完全平方Cost？难题我们对图片的数字被网络正确地分类不感兴趣？比起最小化想完全平方Cost代理衡量，为什么不尝试直接最大化那个数字？问题是图片的数字的分类不是一个权重和偏移量的平滑函数的。大多数情况下，对于权重和偏移量的小变化不会导致训练图片的正确地变化。这使得计算出合适的权重和偏移量变得困难。如果我们使用一个类似完全平方Cost的平滑函数，这样会更容易找到合适的权重和偏移量。这就是为什么我们集中将军如何最小化完全平方 cost，只有这样，我们才能检验分类是否准确。

我们想要使用一个平滑的cost函数，你可能想知道为什么我们选择上面的二次函数。难道这不是一个特设的选择？大概如果我们选择一个不同的cost函数我们会得到不同的权重和偏移量的最小化。稍后我们会回头看一下 cost 函数，并且作些改变。然而二次 cost 函数对于理解神经网络的基本学习过程很适合，所以限制坚持讲这个。

Recapping, 我们训练神经网络的目的是找到使得二次cost函数C(w,b)得出最小值的权重和偏移量。

好，我们假设我们尝试最小化函数

我们想要做的是找到一个能够达到全局最小化的

攻克这个难题的一种方法是使用微积分来尝试找到最小。我们可以计算导数，然后尝试使用它们来找到函数

将C想象成一个有两个变量的函数，我两次提到，如果这是一个有很多变量的函数呢？请相信我，将C函数想象成只有两个变量的函数对于理解是有帮助的。图片有时候会分解，最后两段我们会将一下图形的分解。

微积分在这里没起到什么帮助。幸运的是，有一个漂亮的类比来表明这个算法工作的很好。我们开始将我们的函数想象成一个山谷。如果你斜眼扫一下下面的图，应该不会很难。我们想象一个球沿着斜坡滚下去，经验告诉我们，球最终会滚到山谷底部。大概我们可以使用这种思想作为一种方法去找到函数的最小值。我们随机选择一个开始点，球重这个点开始滚向山谷的底部。我们可以通过计算微积分导数的方式来模拟。

你可能假设，我尝试给这个滚动的球写一下牛顿运动方程。衡量一下摩擦力和重力情况等等。事实上，我们不准备对滚动的球进行那么严格的受力和运动分析，我们涉及一个算法类求C的最小值，不用去作那么精确的物理仿真。

为了使这个问题更加精确，让我们思考一下当我们以

Δ C \approx \partial C \partial v 1 Δ v 1 + \partial C \partial v 2 Δ v 2

\nabla C \equiv (\partial C \partial v 1 , \partial C \partial v 2 ) T

Δ C \approx \nabla C \cdot Δ v

Δv=−η∇C,(10)

总结一下，梯度下降算法工作的方式是重复地计算梯度

翻译不下去了，这数学。。。，去看下一章吧，有代码实现：http://www.cnblogs.com/pathrough/p/5855084.html

转载于:https://www.cnblogs.com/pathrough/p/5322736.html

weixin_30378623

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《神经网络与深度学习》第一章使用神经网络来识别手写数字（二）- 用梯度下降来训练学习...

译者：本文为转载的英文文章，将逐步翻译成中文，本章内容侧重将随机梯度下降的训练方法，涉及不少数学知识，如果觉得枯燥直接看第三章，第三章给出了Python的实现代码和程序说明：http://www.cnblogs.com/pathrough/p/5855084.html原文地址：http://neuralnetworksanddeeplearning.com/chap1.html由于文...
复制链接

扫一扫