随便写写的残差神经网络笔记

最新推荐文章于 2022-08-24 11:42:26 发布

AdijeShen

最新推荐文章于 2022-08-24 11:42:26 发布

阅读量849

点赞数

分类专栏：阅读笔记机器学习文章标签：神经网络机器学习深度学习逻辑回归

本文链接：https://blog.csdn.net/adijeshen/article/details/121403698

版权

阅读笔记同时被 2 个专栏收录

11 篇文章 2 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

这里可能用很多错误内容，不建议阅读，我最近在看Residual Neural Network，以前对NN都不太了解。只是写一下加强印象。

文章目录

NN学习笔记（Neural Network）

NN学习笔记（Neural Network）

NN的框框

在这里插入图片描述
图1 不同的NN模型图示(标准神经网络，卷积神经网络，循环神经网络)

标准的NN一般用于做预测，CNN一般用于图像识别，RNN一般用于处理一维数据（时序数据）。

符号表示

对于一个训练样本来说，他可能是一张 $64\times 64$ ，RGB通道的图片，那么令样本 $x$ 为这个图片展开后的数组，大小为 $n_x=12288$ 。对应的，有一个标签 $y$ ，可能用来表示这张图片里面是否有一只猫， $y\in\{0,1\}$ 。记这样的 $(x, y)$ 为一个带标签的样本。

如果说我们有 $m$ 个训练样本，记为 $m=m_{train}$ ， $m_{test}$ 个测试样本。分别为： $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$ 。

那可以用一个矩阵来表示他：
$X=\left[x^{(1)}, x^{(2)}, \ldots, x^{(m)}\right] \in \mathbb{R}^{n_{x} \times m}, Y=\left[y^{(1)}, y^{(2)}, \ldots, y^{(m)}\right] \in \mathbb{R}^{1 \times m}$

逻辑回归

给定一个 $x$ ，想要得到的结果是 $\hat{y}=Pr[y=1|x]$ ，即样本 $x$ 满足条件的概率。

$x\in \R^{n_x}$ ，模型是 $w\in \R^{n_x},b\in \R$ 。

在线性回归里面是： $\hat{y}=w^Tx +b$ ，但这样得到的结果是不在 $[0, 1]$ 区间内的。

所以在逻辑回归中： $\hat{y}=\sigma(w^Tx+b)$ ，其中sigmoid函数 $\sigma(z)=\frac{1}{1+e^{-z}},z=w^Tx+b$ 。

在这里插入图片描述

损失函数

逻辑回归中， $z^{(i)}=w^{T}x^{(i)}+b$ ， $\hat{y}^{(i)}=\sigma(z^{(i)})_{1\le i \le m}$ ，目标是使 $\hat{y}^{(i)}\approx y^{(i)}$ 。

损失函数（loss function）的一种定义方法是 $\mathcal{L}(\hat{y},y)=\frac{1}{2}(\hat{y}-y)^2$ ，但在逻辑回归中一般不这么做，

在逻辑回归中用到的损失函数是： $\ell(\hat{y},y)=-\left(y\log \hat{y} + (1-y) \log (1-\hat{y})\right)$ 。

定义成本函数（cost function）为：
$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}\ell(\hat{y}^{(i)},y^{(i)})=-\frac{1}{m}\left(y^{(i)}\log \hat{y}^{(i)} + (1-y^{(i)}) \log (1-\hat{y}^{(i)})\right)$

为什么损失函数是这个：

注意到：
$\begin{aligned} \text{If}\quad y=1&:\quad p(y|x)=\hat{y}\\ \text{If}\quad y=0&:\quad p(y|x)=1-\hat{y} \end{aligned}$
结合上面两个式子，可以得到 $p(y|x)=\hat{y}^y(1-\hat{y})^{1-y}$ 。

我们的目标是让 $p (y ∣ x)$ 尽可能大，注意 $\log$ 是一个递增函数，就相当于让 $-\log(p(y|x))$ 尽可能小。也就得到了 $\mathcal{L}(\hat{y},y)$ 这个式子。

梯度下降

目标是找到一组 $(w, b)$ 使得 $J (w, b)$ 最小，因此可以每次进行更新：
$w:=w-\alpha \frac{\partial J(w,b)}{\partial w}\\ d:=d-\alpha\frac{\partial J(w,b)}{\partial b}$
其中 $\alpha$ 是学习率，后面是对 $w ， b$ 分别求偏导。（偏导就是对有一个以上变量的函数中的某个变量求导的意思）

算法：

$\begin{aligned} &\text{For }i\text{ in }[1,m]:\\ &\quad z^{(i)}=w^Tx^{(i)}+b\\ &\quad a^{(i)}=\sigma(z^{(i)})\\ &\quad J\stackrel{+}=-\left[y^{(i)}\log a^{(i)}+(1-y^{(i)})\log(1-a^{(i)})\right]\\ &\quad \mathbf{d}z^{(i)}=a^{(i)}-y^{(i)}\\ &\quad \text{For }j\text{ in }n_x:\\ &\quad\quad \mathbf{d}w_j \stackrel{+}= x_j^{(i)}dz^{(i)}\\ &\quad\quad \mathbf{d}b \stackrel{+}= dz^{(i)}\\ &J/=m,\mathbf{d}w/=m,\mathbf{d}b/=m \end{aligned}$

对 $j\in[1,n_x]$ 计算 $w_j=w_j-\alpha \mathbf{d}w_j$ ， $b=b-\alpha \mathbf{d}b$ 。

向量化（numpy）加速

在这里插入图片描述

可以取消上面 $\text{For }i\text{ in }[1,m]:$ 的循环，通过 $X=[x^{(1)},...,x^{(m)}],Z=np.dot(w.T,X)+b,A=\sigma(Z)$ ,

非向量版本：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3bVBcNk5-1637223474334)(https://raw.githubusercontent.com/AdijeShen/images/master/picgo/image-20211020102307377.png)]

向量化版本：

def gradient():
    Z=np.dot(w.T,X)+b
    A=sigmoid(Z)
    J= - (y*np.log(A) + (1-y)*np.log(1-A))/m
    dZ = A-y
    dw = X*dZ.T/m
    db = np.sum(dZ)/m
    return dw,db

def train():
    iterations = 1000
    lr = 0.01
    for i in range(iterations):
        dw,db = gradient()
        w = w-lr*dw
        b = b-lr*db
    return w,b

残差神经网络

Residual Block

在通常情况下，一个深度神经网络中，记不同的激活层为 $a^{[l]},a^{[l+1]},a^{[l+2]}$ 。

变化方式为 $a^{[l]} \stackrel{{\sf Linear}}\longrightarrow z^{[l+1]} \stackrel{\sf ReLU}\longrightarrow a^{[l+1]}\stackrel{{\sf Linear}}\longrightarrow z^{[l+2]}\stackrel{\sf ReLU}\longrightarrow a^{[l+2]}$ 。

其中 ${\sf Linear}: z^{[l+1]}=W^{[l+1]}a^{[l]}+b^{[l+1]},{\sf ReLU}: a^{l+1}=g(z^{[l+1]}),g(x)=max(0,x)$ 。

在这里插入图片描述

Residual Block就是在执行下一个ReLU之前，将输入变为 $z^{[l+1]}\oplus a^{[l]}$ ，或者说可以跳跃两个链接，得到 $z^{[l+2]}\oplus a^{[l]}$ 。

为什么Residue Network可以做的更深呢？

在这里插入图片描述

考虑在一个原本的Big NN后面加上一个Residue Block。

如果说这个模型本来就已经训练的不错了，加上最后一个Residue Block也只是做了一个恒等映射，式子为：
$\begin{aligned} a^{[l+2]}&=g(z^{[l+2]} + a^{[l]}) &&\text{Note that }a^{[l]}\ge 0\text{ because it is a output of }{\sf ReLU}\\ &=g(W^{[l+2]}a^{[l+1]} + b^{[l+2]} +a^{[l]})&&\text{Then set }W^{[l+2]},b^{[l+2]}\text{ to be 0 to get an identity function}\\ &=a^{[l]} \end{aligned}$
Residue Block做恒等映射是非常free的。所以增加层数最起码不会负面影响网络的性能。