PRML读书笔记——神经网络

最新推荐文章于 2021-09-01 22:47:44 发布

GZGlenn

最新推荐文章于 2021-09-01 22:47:44 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习文章标签：神经网络读书笔记 PRML 反向传播混合密度网络

本文链接：https://blog.csdn.net/hubin232/article/details/70271712

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

线性模型会被维数灾难问题限制，为了将模型应用于大规模的问题，需要根据数据调节基函数。一种方法是实现固定基函数的数量，但使用参数形式的基函数，这些参数可以在训练阶段调节，而神经网络就是这样一种模型。

前馈神经网络

回顾回归的线性模型和分类的线性模型，它们基于固定非线性基函数的线性组合，形式如下：

y (x, w) = f (\sum j = 1 M w j ϕ j (x))

$y(x,w)=f(\sum_{j=1}^{M}w_{j}\phi_{j}(x))$

其中f在分类问题中是非线性激活函数，在回归问题是恒等式；

神经网络使用与上式形式相同的基函数，即每个基函数本身是输入的线性组合的非线性函数，其中，线性组合的系数是可调节的参数。

举例两层神经网络如下图：

这里写图片描述

对应的输出与输入关系为：

y k (x, w) = σ (\sum j = 0 M w (2) k j h (\sum i = 0 D w (1) j i x i))

$y_{k}(x,w)=\sigma (\sum_{j=0}^{M}w_{kj}^{(2)}h(\sum_{i=0}^{D}w_{ji}^{(1)}x_{i}))$

这里， $\sigma$ 和 $h$ 分别是隐含层输出和输入的非线性激活函数。

与感知器相比，一个重要区别是神经网络在隐含单元中使用连续的sigmoid非线性函数，而感知机使用阶梯函数

如果网络所有隐含单元的激活函数都是线性的，那么总可以找到等价的无隐含单元的网络

神经网络的扩展：引入跨层链接；稀疏网络（如卷积神经网络）

这里写图片描述

权空间对称性

对于多个不同的权向量w的选择，网络可能产生同样的从输入到输出的映射函数

网络训练

损失函数

(1)回归问题

标准的误差函数平方和形式的，即：

E (w) = 1 2 \sum n = 1 N (| | y (x n, w) - t n | |) 2

$E(w)=\frac{1}{2}\sum_{n=1}^{N}(||y(x_{n},w)-t_{n}||)^{2}$

那么为什么是平方和的形式呢？考虑下面的过程，假设我们的目标值服从一个高斯分布：

p (t | x, w) = N (t | y (x, w), β - 1)

$p(t|x,w)=N(t|y(x,w),\beta^{-1})$

则对于一个数据集，有：

p (t | X, w, β) = \prod n = 1 N p (t n | x n, w, β)

$p(t|X,w,\beta)=\prod_{n=1}^{N}p(t_{n}|x_{n},w,\beta)$

取对数得到似然函数：

β 2 \sum n = 1 N {y (x, w) - t n} 2 - N 2 l n β + N 2 l n (2 π)

$\frac{\beta}{2}\sum_{n=1}^{N}\left \{ y(x,w)-t_{n} \right \}^{2}-\frac{N}{2}ln\ \beta+\frac{N}{2}ln\ (2\pi)$

这里，如果不考虑噪声问题，它本质上优化的就是 $y(x,w)$ ，因此这就是一个最小平方误差函数，也就是说，最小平方误差函数的来源是假设输入的目标服从高斯分布，而这应该是实际场景中比较普遍的假设，因此最小平方误差在回归问题中也用的最多。

这里的启发是，当我们设计损失函数的时候，应该从问题出发，考虑实际问题或者具体数据集的目标变量或者特征应该具备的分布情况，做出适当的假设，再推导对应的损失函数。

这里继续分析似然函数，以w为参数，计算对数似然的导数，很容易可以得到最佳的w，记为 $w_{ML}$ 。然后，以 $\beta$ 为参数， $w=w_{ML}$ ，求解最佳的 $\beta$ ，得到：

1 β M L = 1 N \sum n = 1 N {y (x n, w M L) - t n} 2

$\frac{1}{\beta_{ML}}=\frac{1}{N}\sum_{n=1}^{N}\left \{ y(x_{n},w_{ML})-t_{n} \right \}^{2}$

(2)二分类问题

回归问题到分类问题的转化就是在回归问题上套个sigmoid，如下：

y = σ (a) = 1 1 + e x p ( - a )

$y=\sigma (a)=\frac{1}{1+exp(-a)}$

因为是二分类问题，现在假设 $y(x,w)$ 是条件概率 $p(C_{1}|x)$ ，而 $p(C_{2}|x)$ 为 $1-y(x,w)$ ，所以，目标变量的条件概率分布是一个伯努利分布，如下：

p (t | x, w) = y (x, w) t {1 - y (x, w)} 1 - t

$p(t|x,w)=y(x,w)^{t}\left \{ 1-y(x,w) \right \}^{1-t}$

则对应的误差函数是交叉熵的形式，如下：

E (w) = - \sum n = 1 N {t n l n y n + (1 - t n) l n (1 - y n)}

$E(w) =-\sum_{n=1}^{N} \left \{t_{n}lny_{n}+(1-t_{n})ln(1-y_{n}) \right \}$

(3)多分类问题

假设每个输⼊被分到 $K$ 个互斥的类别中。⼆元⽬标变量 $t_{k} \in \left\{ 0,1 \right\}$ 使⽤“1-of-K”表达⽅式来表⽰类别，从⽽⽹络的输出可以表⽰为 $y_{k}(x,w) = p(t_{k} = 1 | x)$ 如果目标变量 $t_{k}\in(0,1)$ 采用1-of-K的形式，则误差函数为：

E (w) = - \sum n = 1 N \sum k = 1 K t n k l n y k (x n, w)

$E(w)=-\sum_{n=1}^{N}\sum_{k=1}^{K}t_{nk}lny_{k}(x_{n},w)$

参数最优化

下面考虑求解误差函数的最优解；整个权值空间如下图举例。它的最小值出现在误差函数梯度为0的位置上，即

\nabla E (w) = 0

$\nabla E(w) = 0$

因为我们的基函数是非线性函数，上式基本无法得到解析解，因此考虑迭代的数值计算方法

（1）局部二次近似

这种方法利用泰勒展开，得到近似解

首先考虑全空间某点 $\widehat{w}$ 的泰勒展开，如下：

E (w) ≃ E (w ˆ) + (w - w ˆ) T b + 1 2 (w - w ˆ) T H (w - w ˆ)

$E(w)\simeq E(\widehat{w}) + (w-\widehat{w})^{T}b+\frac{1}{2}(w-\widehat{w})^{T}H(w-\widehat{w})$

其中

b \equiv \nabla E | w = w ˆ

$b\equiv \nabla E|_{w=\widehat{w}}$

Hessian矩阵 $H=\nabla \nabla E$ 的元素为：

(H) i j \equiv \partial E \partial w i \partial w j | w = w ˆ

$(H)_{ij} \equiv \frac{\partial E}{\partial w_{i}\partial w_{j}}|_{w=\widehat{w}}$

则在最小值点 $w^{*}$ 附近的局部二次近似为：

E (w) ≃ E (w *) + (w - w *) T b + 1 2 (w - w *) T H (w - w *)

$E(w)\simeq E(w^{*}) + (w-w^{*})^{T}b+\frac{1}{2}(w-w^{*})^{T}H(w-w^{*})$

（2）梯度下降最优化

梯度信息的使用可以大幅加快找到极小值点的速度

最简单的使用梯度信息的方法是，每次更新梯度如下：

w τ + 1 = w τ + η \nabla E (w τ)

$w^{\tau +1}=w^{\tau}+\eta \nabla E(w^{\tau})$

这种方法是梯度下降法，但可以证明它是很差的算法

（3）误差反向传播

误差反传主要是为了不断更新梯度，可以分为两个阶段。第一个阶段，误差函数关于权值的导数必须被计算出来；第二个阶段，倒数用于计算权值的调整值内部计算较复杂，包含了Jacobian矩阵的求导，Hessian矩阵的各种近似求解，但总体而言，神经网络采用的是链式法则，下面用相对简单的例子说明。

（a）考虑下图的例子，这是一个两输入一输出的网络，首先是损失函数求导，得到导数 $\delta=z-y$ ：

这里写图片描述

（b）然后沿着网络的结构，按照目前的权重分配损失：

这里写图片描述

（c）不断往前分配和传递

这里写图片描述

（d）到达网络输入后，用梯度下降算法（也可以用其他算法），从输入到输出逐层更新权重：

这里写图片描述

（e）逐层往后更新：

这里写图片描述

这里， $f$ 是非线性激活，所以对某一个单元的权重求导为：

\partial f ( \sum i w i x i ) \partial w i = \partial f ( \sum i w i x i ) \partial \sum i w i x i \partial \sum i w i x i \partial w i = \partial f ( a ) \partial a x i

$\frac{\partial f(\sum _{i}w_{i}x_{i})}{\partial w_{i}}=\frac{\partial f(\sum _{i}w_{i}x_{i})}{\partial \sum _{i}w_{i}x_{i}}\frac{\partial \sum _{i}w_{i}x_{i}}{\partial w_{i}}=\frac{\partial f(a)}{\partial a}x_{i}$

其中， $a=\sum _{i}w_{i}z_{i}$ ，整体形势和上图过程一致。

从图中可以看出，反向传播包含两个过程，其一是误差反向分配和传播，其二是根据误差的权重从前到后更新。

书中的总结更具有一般性，链式法则的主要公式如下：

\partial E n \partial w j i = \partial E n \partial a j \partial a j \partial w j i

$\frac{\partial E_{n}}{\partial w_{ji}}=\frac{\partial E_{n}}{\partial a_{j}}\frac{\partial a_{j}}{\partial w_{ji}}$

其中 $a_{j}=\sum _{i}w_{ji}z_{i}$ ，表示神经网络的某一层中线性组合前一层所有输入的过程。

这里还说明反向传播的效率问题。反传效率是 $O(W)$ ，可以使用有限差的来简化计算，但因为这是一种近似，得到的解可能精度不高，但是可以用它的结果与链式法则求导结果进行比对，检查反传的正确性

有限差的近似导数表达式如下：

\partial E n \partial w j i = E n ( w j i + ϵ ) - E n ( w j i - ϵ ) 2 ϵ + O (ϵ 2)

$\frac{\partial E_{n}}{\partial w_{ji}}=\frac{E_{n}(w_{ji}+\epsilon )-E_{n}(w_{ji}-\epsilon )}{2\epsilon }+O(\epsilon ^{2})$

神经网络的防止过拟合

误差函数增加正则化

一般增加了正则化后的误差函数为（正则化也称为权值衰减）：

E ˜ (w) = E (w) + λ 2 w T w

$\widetilde{E}(w)=E(w)+\frac{\lambda }{2}w^{T}w$

上式存在局限性，它与网络映射的确定缩放性质不相容（不具备缩放不变性）

同样考虑2层神经网络的例子，假设我们对输入输出进行基本的线性变换，如下：

输入：

x i \to x i ˜ = a x i + b

$x_{i}\rightarrow \widetilde{x_{i}}=ax_{i}+b$

输出：

y k \to y k ˜ = c y k + d

$y_{k}\rightarrow \widetilde{y_{k}}=cy_{k}+d$

那么求解到的权值和偏置也会发生改变，如下：

第一层：

w j i \to w j i ˜ = 1 a w j i

$w_{ji}\rightarrow \widetilde{w_{ji}}=\frac{1}{a}w_{ji}$

w j 0 \to w j 0 ˜ = w j 0 - b a \sum i w j i

$w_{j0}\rightarrow \widetilde{w_{j0}}=w_{j0}-\frac{b}{a}\sum_{i}w_{ji}$

第二层：

w k j \to w k j ˜ = c w k j

$w_{kj}\rightarrow \widetilde{w_{kj}}=cw_{kj}$

w k 0 \to w k 0 ˜ = c w k 0 + d

$w_{k0}\rightarrow \widetilde{w_{k0}}=cw_{k0}+d$

显然，基本的正则化形式将权值与偏置同等对待，线性变换后，得到的网络与之前的网络并不等价，而理论上两个网络应该是等价的

所以可以考虑修正之前的正则化项，是的正则化项对权值的缩放不变，对偏置的平移不变，可以改为下式（取消偏置的正则化，对不同层引入不同的权重）：

λ 1 2 \sum w \in W 1 w 2 + λ 2 2 \sum w \in W 2 w 2

$\frac{\lambda _{1}}{2}\sum_{w\in W_{1}}w^{2}+\frac{\lambda _{2}}{2}\sum_{w\in W_{2}}w^{2}$

早停止

误差函数是关于迭代次数的不增函数（因为梯度下降导致的），但是在验证集上的测量误差，通常会首先减小，然后因为过拟合而增加，如下图：

这里写图片描述

通过限制迭代次数，达到防止过拟合的效果，这里， $\tau \eta$ ( $\tau$ 是迭代次数， $\eta$ 是学习率)扮演了正则化参数 $\lambda$ 的倒数的角色

不变性

在对输入变量进行一个或多个变换之后，预测不应该发生变化，或者说应该具有不变性，让模型能够表述不变性的方法有四种：

a. 通过复制训练模式，同时根据要求的不变性进行变换，对训练集进行扩展

b. 为误差函数加上正则化项，惩罚输入进行变换时，输出的改变（切线传播）

c. 抽取在要求的变换下不发生改变的特征

d. 把不变性的性质整合到神经网络的构建过程

其中，方法a因为对原有数据增加了变换，本质上，从数据的角度对损失函数产生了影响，可以证明，其效果与方法b是一致的

而方法d的典型例子是卷积神经网络，这种网络考虑的是小区域内的不变性，这种网络主要包含三种方式：局部接受场、权值共享和下采样，典型例子如下：

这里写图片描述

这种网络对微小平移不敏感，而因为是卷积，实现了全图的扫框，权值有共享，降低了网络复杂度，减少过拟合的情况

混合密度网络

神经网络往往是针对有监督学习，其目标的对条件概率分布 $p(t|x)$ 建模，对许多问题而言，这个分布都是高斯分布，但是如果这个分布是多峰的，往往预测结果很差（注意，这里分布多峰，意味着存在一个特征向量x，可能对应多个回归值），混合密度网络可以解决这类问题

典型例子如下图(右图中，一个输入可能对应了多个输出，此时拟合效果很差)：

这里写图片描述

混合密度网络：为 $p(t|x)$ 使用混合模型，模型的混合系数和每个分量的概率分布都是输入向量x的一个比较灵活的函数

混合密度网络的例子如下：

这里写图片描述

显式地令模型的分量为高斯分布，即：

p (t | x) = \sum k = 1 K π k (x) N (t | μ k (x), σ 2 k (x) I)

$p(t|x)=\sum_{k=1}^{K}\pi _{k}(x)N(t|\mu _{k}(x),\sigma _{k}^{2}(x)I)$

这里，参数主要是混合系数 $\pi _{k}(x)$ ，均值 $\mu_{k}(x)$ 以及方差 $\sigma _{k}^{2}(x)$ ,它们都将作为网络的输出

如果这个混合模型有K个分量，t有L个分量，则网络有K个输出单元激活，确定混合系数；有K个输出确定方差；有K*L个输出确定均值分量

这个模型可以用最大似然求解，对应的误差函数形式如下：

E (w) = - \sum n = 1 N l n {\sum k = 1 K π k (x n, w) N (t n | μ k (x n, w), σ 2 k (x n, w) I)}

$E(w)=-\sum_{n=1}^{N}ln\left \{ \sum_{k=1}^{K}\pi _{k}(x_{n},w)N(t_{n}|\mu _{k}(x_{n},w),\sigma _{k}^{2}(x_{n},w)I) \right \}$

GZGlenn

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
PRML读书笔记——神经网络

线性模型会被维数灾难问题限制，为了将模型应用于大规模的问题，需要根据数据调节基函数。一种方法是实现固定基函数的数量，但使用参数形式的基函数，这些参数可以在训练阶段调节，而神经网络就是这样一种模型。
复制链接

扫一扫

专栏目录