基于numpy的前馈神经网络(feedforward neural network)

最新推荐文章于 2023-01-24 04:14:41 发布

廖致君

最新推荐文章于 2023-01-24 04:14:41 发布

阅读量3.4k

点赞数 5

本文链接：https://blog.csdn.net/paul0127/article/details/82529244

版权

本文介绍了作者在学习Andrew Ng的深度学习课程后，通过动手实现前馈神经网络加深理解。文章详细讲解了前馈神经网络的工作原理，包括其结构、激活函数（如tanh和sigmoid）的作用，以及神经元的线性变换和激活变换过程。作者还讨论了神经网络的训练过程，包括损失函数、梯度下降法和反向传播的概念。最后，作者分享了自己的代码实现，指出简洁和易于理解的重要性，并给出了训练时遇到的问题及解决方案。

摘要由CSDN通过智能技术生成

***
代码部分可以直接通过Jupyter Notebook来查看

这几天在上Andrew Ng教授开的Coursera系列课程Deep Learning，总觉得光是看视频和做作业还不够，还是得自己动手写写代码，亲自实现课程里提到的算法内容，于是便有了这篇博客，作为自己入门深度学习的里程碑吧。

前馈神经网络

机器学习有两个基本问题，一是回归，二是分类，神经网络大多用于解决分类问题，前馈神经网络（feedforward neural network）是整个神经网络家族中较为常见和较为基础的一种，如下图右上角的DFF所示。图片来源是Cheat Sheets for AI, Neural Networks, Machine Learning, Deep Learning & Big Data。

神经网络中的基本元素是神经元，每层都有一定数量的神经元，神经元组合的多样性决定了神经网络的丰富性。下面是一个简单的前馈神经网络，总共有三层，从左到右分别是输入层、隐层和输出层，输入层的x1和x2表示这个样本只有两个特征（自变量），因为输入层通常不计入内，所以这是一个两层的神经网络，第一层有4个神经元，第二层只有1个。注意，隐层可以不止一层，隐层设置得越多，整个神经网络越庞大。

这个神经网络的工作原理是，给定一个样本的数据，将数据传输到第一层，进行线性变换和激活变换，得到加工过后的数据，这份新数据传到第二层，作为第二层的输入，接着进行线性变换和激活变换，又得到一份新的数据，因为第二层是最后一层了（如果不止两层就一直进行这样的操作直到抵达最后一层为止），所以最终的输出作为我们对该样本的预测值y_hat。

每一个神经元如同工厂的流水车间的机器，它重复做着四件事情：【接受上一层数据作为输入>>线性变换>>激活变换>>输出数据到下一层】，每个神经元中有三个组成部分：权重(weight)矩阵W，偏置(bias)向量b，以及激活函数(activation function) g，用公式表达为下图，其中上标(i)表示这是第i个样本数据，上标[1]和[2]分别表示这是神经网络的第一层与第二层：

$z^{[1] (i)} = W^{[1]} x^{(i)} + b^{[1]}$
$a^{[1] (i)} = \tanh(z^{[1] (i)})$
$z^{[2] (i)} = W^{[2]} a^{[1] (i)} + b^{[2]}$
$\hat{y}^{(i)} = a^{[2] (i)} = \sigma(z^{ [2] (i)})$

最低0.47元/天解锁文章

廖致君

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于numpy的前馈神经网络(feedforward neural network)

*** 代码部分可以直接通过Jupyter Notebook来查看这几天在上Andrew Ng教授开的Coursera系列课程Deep Learning，总觉得光是看视频和做作业还不够，还是得自己动手写写代码，亲自实现课程里提到的算法内容，于是便有了这篇博客，作为自己入门深度学习的里程碑吧。前馈神经网络机器学习有两个基本问题，一是回归，二是分类，神经网络大多用于解决分类问题，...
复制链接

扫一扫