TensorFlow指南（四）——练习思考：深度神经网络（初级）

最新推荐文章于 2021-10-02 16:42:01 发布

小爷毛毛（卓寿杰）

最新推荐文章于 2021-10-02 16:42:01 发布

阅读量4.3k

点赞数 1

分类专栏： TensorFlow 深度学习基础/原理文章标签： tensorflow dnn 深度学习神经网络

本文链接：https://blog.csdn.net/u011239443/article/details/71173351

版权

深度学习基础/原理同时被 2 个专栏收录

141 篇文章 12 订阅

订阅专栏

TensorFlow

27 篇文章 1 订阅

订阅专栏

本文地址： http://blog.csdn.net/u011239443/article/details/71173351

为什么使用逻辑回归分类器而不是经典感知器(例如:用感知器训练算法训练的一层线性阈值单元)?如何调整感知器使其与逻辑回归分类器等效?

只有当数据集是线性可分的时，经典的感知器才会收敛，并且它无法估计类概率。相反，逻辑回归分类器将收敛于一个好的解决方案，即使数据集不是线性可分的，它也会输出类的概率。如果你改变感知器的激活函数为逻辑激活函数(或softmax),用梯度下降法训练它(或其他优化算法最小化代价函数,通常是交叉熵),这样就相当于一个逻辑回归分类器。

假设你有一个由一个输入层组成的MLP，它有10个通道神经元，后面是一个隐藏的层，有50个人工神经元，最后一个输出层有3个人工神经元。所有的人工神经元都使用了相关的激活功能。
- 输入矩阵X的形状是什么?
- 那么隐藏层的权重矩阵 Wh 的形状，以及它的偏差向量’bh’的形状呢?
- 输出层的权重矩阵和它的偏差向量’bo’的形状是什么?
- 网络的输出矩阵Y的形状是什么?
- 写出计算网络输出矩阵Y的方程，它是X、Wh、bh、“Wo”和“bo”的函数。

输入矩阵X的形状是 m*10，m表示训练批的大小。
隐藏层的权重矩阵的形状是10*50，它的偏置向量的长度是50。
输出层的权向量的形状是 50*3，而它的偏置向量的长度是3。
网络的输出矩阵Y的形状是 m*3。
Y = (X * Wh + bh) * Wo + bo。注意，当你在矩阵中添加一个偏差向量时，它会被添加到矩阵中的每一行中，也就是所谓的广播。

如果你想将电子邮件分类为是否垃圾邮件，你需要在输出层中需要多少个神经元?在输出层中应该使用什么激活函数?如果你想要处理MNIST，在输出层中需要多少个神经元，使用什么激活函数?同样的问题，预测房价呢？

分类电子邮件分类是否为垃圾邮件，只需要一个神经网络输出层中的一个神经元，这就表明电子邮件是垃圾邮件的可能性。在估计概率时，通常会使用输出层中的逻辑激活函数。如果你想要处理MNIST，你需要在输出层中使用10个神经元，你必须用softmax激活函数来代替逻辑函数，它可以处理多个类，每个类输出一个概率。如果你想让你的神经网络来预测房价，那么你需要一个输出神经元，在输出层中不使用任何激活函数。

什么是反向传播，它是如何工作的?反向传播和反向模式autodiff的区别是什么?

反向传播是一种用于训练人工神经网络的技术。它首先计算每个模型参数(所有的权重和偏差)的成本函数的梯度，然后使用这些梯度执行梯度下降步骤。这个反向传播步骤通常执行数千或数百万次，使用许多训练批，直到模型参数收敛到(希望)最小化成本函数的值。为了计算梯度，反向传播使用反向模式autodiff(虽然在创建反向传播时并没有调用它，并且它已经被重新设计了好几次)。反向模式autodiff通过计算图执行向前传递，计算当前训练批的每个节点的值，然后执行反向传递，同时计算所有的梯度(请参阅：http://blog.csdn.net/u011239443/article/details/79074931)。所以有什么区别呢?“反向传播”指的是整个过程，训练一个人工神经网络，使用多个反推的步骤，每个步骤都计算梯度，并使用它们来执行梯度下降步骤。相反，反向模式autodiff是一种有效地计算梯度的技术，它恰好被反向传播所使用。