神经网络学习笔记（三）

最新推荐文章于 2024-09-13 19:03:07 发布

dyc941126

最新推荐文章于 2024-09-13 19:03:07 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/dyc941126/article/details/45039325

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文探讨了多层神经网络的容量问题，通过示例解释了如何通过增加隐藏单元来创建复杂的非线性决策边界。接着，介绍了神经网络训练的基础，包括经验风险最小化（ERM）和随机梯度下降（SGD）算法，强调了正规化项在防止过拟合中的作用，并概述了训练过程的主要步骤。

摘要由CSDN通过智能技术生成

上一章主要讨论了单个神经元的容量问题，本章将着重讨论多层神经网络的容量和训练问题。

一、多层神经网络的容量问题

这里写图片描述

如图是一个具有两个隐藏单元的单隐层神经网络，左网格图是左侧隐层神经元的输出激励，右侧网格图是右侧隐层神经元的输出激励，则最终的输出激励是二者的叠加（至于是求和还是做差，取决于连接权值的选取，在本例中，是做差的过程）

如果我们增加隐层神经元个数，我们可以得到更为复杂的输出激励：

这里写图片描述

这里，我们总共有四个隐层神经元，这四个简单的线性分类器叠加后，就可以产生更为复杂的、高度非线性的决策边界。

这里直接给出描述神经网络容量问题的Universal Approximation定理(Hornike,2001)：

只要给定足够多的隐藏单元，一个带线性输出单元的单隐层神经网络可以模拟出一切连续函数

以上结论可以推广至采用Sigmoid激励函数和Hyperbolic Tangent激励函数的情形。

二、神经网络训练概述

上面我们只是谈到了神经网络的表示问题和容量问题，我们知道选择正确的参数 $w$ 和 $b$ 就可以解决简单的线性可分问题，若多层神经元级联。则可以模拟任何连续函数，但我们并没有给出确定这些参数的方法，而下面谈到神经网络的训练过程就是确定最优参数的过程。

1.Empirical Risk Minimization

经验风险最小化（Empirical Risk Minimization）是设计学习算法的一个框架，它可以将训练神经网络这一抽象问题转化成为一个求某个目标函数最小值的具体优化问题。其目标函数定义如下：

m i n θ 1 T \sum t l (f (x (t); θ), y (t)) + λ Ω (θ)

$min_\theta \frac1T\sum_tl(f(x^{(t)};\theta ),y^{(t)})+\lambda \Omega(\theta)$ 其中，

θ $\theta$ 代表神经网络的所有参数，包括权重矩阵

w $w$ 和偏置

b $b$ ；

x(t) $x^{(t)}$ 表示第

t $t$ 个训练数据的输入向量；

y(t) $y^{(t)}$ 表示第

t $t$ 个训练数据对应的类别标签（或期望输出）;

T $T$ 为训练样本的总数。
分析目标函数，可知目标函数由以下几个部分组成：

误差函数均值 $\frac1T\sum_tl(f(x^{(t)};\theta ),y^{(t)})$
正规化项 $\Omega(\theta)$
平衡权重 $\lambda$

理想状况下，我们应该直接对分类误差进行优化，但往往分类误差不是光滑的，这就导致在某些点上函数是不可导的，这对我们后续学习算法的设计是很不利的。因此，我们引入误差函数 $l(f(x^{(t)};\theta ),y^{(t)})$ 作为分类误差的代替，写入优化目标。一般误差函数是实际分类误差的上界，如图：
这里写图片描述

正规化项 $\Omega(\theta)$ 的作用是对 $\theta$ 进行惩罚，防止过拟合（Overfitting）现象的产生，而参数 $\lambda$ 则控制了在目标函数中，误差函数均值和正规化项之间的平衡。若 $\lambda$ 过大，则可能导致欠拟合（Underfitting），训练效果较差；若 $\lambda$ 过小，则可能导致过拟合，泛化效果较差。

2.Stochastic Gradient Descent

随机梯度下降是一个经典的神经网络学习算法，其主要思想是向目标函数梯度的反方向调整参数大小，从而实现对数据的拟合。
其主要步骤如下：

初始化各个参数 $\theta$ ， $\theta=\{w^{(1)},b^{(1)},...,w^{(L+1)},b^{(L+1)}\}$
循环 N 次
- 对于每一个训练样本 $(x^{(t)},y^{(t)})$
- 求目标函数的反梯度方向，即 $\Delta=-\nabla_\theta l(f(x^{(t)};\theta ),y^{(t)})-\lambda\nabla_\theta\Omega(\theta)$
- 更新参数 $\theta ←\theta+\alpha\Delta$
为了实现上述算法，我们需要：
- 误差函数 $l(f(x^{(t)};\theta ),y^{(t)})$
- 计算参数导数 $\nabla_\theta l(f(x^{(t)};\theta ),y^{(t)})$ 的方法
- 正规化项 $\Omega(\theta)$ 及其导数
- 初始化个参数的方法
下一章将按顺序解决以上问题。