Stanford机器学习---第五讲. 神经网络的学习 Neural Networks learning

最新推荐文章于 2024-07-13 11:10:11 发布

Rachel-Zhang

最新推荐文章于 2024-07-13 11:10:11 发布

阅读量7.6w

点赞数 34

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/abcjennifer/article/details/7758797

版权

本文详细介绍了Stanford机器学习课程中关于神经网络的学习内容，涵盖成本函数、反向传播算法、误差计算、参数初始化等方面。通过实例解析神经网络的训练过程，包括前向传播、成本函数计算、梯度检查以及随机初始化权重的重要性。

摘要由CSDN通过智能技术生成

本栏目（Machine learning）包括单参数的线性回归、多参数的线性回归、Octave Tutorial、Logistic Regression、Regularization、神经网络、机器学习系统设计、SVM（Support Vector Machines 支持向量机）、聚类、降维、异常检测、大规模机器学习等章节。所有内容均来自Standford公开课machine learning中Andrew老师的讲解。（https://class.coursera.org/ml/class/index）

第五讲——Neural Networks 神经网络的表示

===============================

（一）、Cost function

（二）、Backpropagation algorithm

（三）、Backpropagation intuition

（四）、Implementation note: Unrolling parameters

（五）、Gradient checking

（六）、Random initialization

（七）、Putting it together

===============================

（一）、Cost function

假设神经网络的训练样本有m个，每个包含一组输入x和一组输出信号y，L表示神经网络层数，S_l表示每层的neuron个数(SL表示输出层神经元个数)。

将神经网络的分类定义为两种情况：二类分类和多类分类，

卐二类分类：S_L=1, y=0 or 1表示哪一类；

卐K类分类：S_L=K, y_i= 1表示分到第i类；（K>2）

我们在前几章中已经知道，Logistic hypothesis的Cost Function如下定义：

其中，前半部分表示hypothesis与真实值之间的距离，后半部分为对参数进行regularization的bias项，神经网络的cost function同理：

hypothesis与真实值之间的距离为每个样本-每个类输出的加和，对参数进行regularization的bias项处理所有参数的平方和

===============================

（二）、Backpropagation algorithm

前面我们已经讲了cost function的形式，下面我们需要的就是最小化J(Θ)

想要根据gradient descent的方法进行参数optimization，首先需要得到cost function和一些参数的表示。根据forward propagation,我们首先进行training dataset 在神经网络上的各层输出值：

我们定义神经网络的总误差为：

$E = \frac{1}{2}\sum_{i}{(y_i-a_i)^2}$ 希望通过调整权重参数W（也就是theta）来最小化E。由于

$\Delta W \propto -\frac{\partial E}{\partial W}$
所以每一层按如下方式进行更新： $\Theta_{ij}^{(l)} = \Theta_{ij}^{(l)}+\Delta\Theta_{ij}^{(l)}=\Theta_{ij}^{(l)}-\alpha \frac{\partial E(\Theta)}{\partial \Theta_{ij}^{(l)}}$ <