【深度学习】(一) 概述

chendh1977

已于 2024-09-13 09:55:35 修改

阅读量526

点赞数 15

分类专栏：深度学习文章标签：深度学习人工智能

于 2024-09-13 09:49:55 首次发布

本文链接：https://blog.csdn.net/CHENDONGHAO1105/article/details/142202342

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 由逻辑回归到深度学习

1.1 二分类

将一组输入特征向量 X 映射到一组输出，输出的取值为 $ (0,1) $，逻辑回归就是一个用于二分类的算法。

1.2逻辑回归符号定义

$x$ : 表示一个 n₁ 维数据，为输入数据，维度为 $n_x, 1)$ ；

$y$ ：表示输出结果，取值为 $(0, 1)$ ；

$x^{(i)}, y^{(i)})$ ：表示第 i 组数据，一般指训练集数据；

$X = [x^{(1)}, x^{(2)}, …… , x^{(m)}]$ ，向量化表示所有训练数据的输入值，放在一个 $n_x*m$ 的矩阵中， m 为样本数目；

$Y = [y^{(1)}, y^{(2)}, …… , y^{(m)}]$ ，向量化表示所有训练数据的输出值，维度为 $1 * m$ ；

$w$ ：表示参数，维度为 $n_x$ *1。

$b$ ：表示偏置值；

$z$ ： $z = w^Tx+b$

$a$ ：预测值， $\sigma(z) = sigmod(z)= \frac{1}{1+{e^{-z}}}$

$Z = [z^{(1)}, z^{(2)}，…… z^{(m)}]$ ：向量化的 z

$A = [a^{(1)}, a^{(2)}，…… a^{(m)}]$ ：向量化的 a

1.3 激活函数

在逻辑函数里用的是 $s i g m o d$ 函数，该函数可以将输入值映射到 $0 - 1$ 之间：

$\frac{1}{1+{e^{-z}}}$

1.4 损失函数

损失函数，又叫误差函数，用于衡量预测结果与实际结果的偏差情况。符号： $L(\widehat{y}, y)$

在逻辑回归中使用交叉熵损失函数： $L(\widehat{y}, y) = -ylog(\widehat{y})-(1-y)log(1-\widehat{y})$

对于这个逻辑回归损失函数，我们也想让它尽可能地小：

当 $y = 1$ 时损失函数 $-log(\widehat{y})$ ，此时如果希望 $L$ 尽可能小，则 $\widehat{y}$ 就要尽可能大，由于 $s i g m o d$ 取值为 $[0, 1]$ ，所以 $\widehat{y}$ 会无限接近 $1$ ；

当 $y = 0$ 时损失函数 $-log(1-\widehat{y})$ ，此时如果希望 $L$ 尽可能小，则 $\widehat{y}$ 就要尽可能小，由于 $s i g m o d$ 取值为 $[0, 1]$ ，所以 $\widehat{y}$ 会无限接近 $0$ 。

上述损失函数是一个样本的误差情况，在一整个训练集中，有很多个样本，所以对一整个训练集而言，代价函数为：

$\frac{1}{m}\sum_{i=1}^mL(\widehat{y^{(i)}}, y^{(i)})$

1.5 向量化前向传播

前向传播是指由输入计算到输出的过程：

$Z = w^TX+b$

$\sigma(Z)$

1.6 向量化反向传播

反向传播是指由后往前计算梯度或偏导数的过程

单个样本反向传播：

$(\frac{dJ}{da})(\frac{da}{dz}) = a -y$

$d w = x d z$

$d b = d z$

多个样本向量化反向传播：

$(\frac{dJ}{dA})(\frac{dA}{dZ}) = A -Y$

$\frac{1}{m}XdZ^T$

$\frac{1}{m}np.sum(dZ)$

1.7 梯度下降

梯度方向是在当前位置上函数增长最快的方向，所以只要逆着梯度方向就可以找到函数的最低点。梯度在上个小结中已经通过反向传播求得，接下来则是将 $w, b$ 向梯度反方向移动。但是这里有一个问题，如果直接移动梯度大小，会导致 $w, b$ 大尺度的来回反复，而无法移动到最低点，所以这里需要让梯度按照一定的尺度缩小，这里用到第一个超参数： $\alpha$

$\alpha dw$

$\alpha db$

经过反复迭代， $w, b$ 都想最有参数迭代，而损失函数的值也最终收敛至最小值。

2. 神经网络

2.1 神经网络符号定义

$n^{[0]}$ ：输入特征个数；

$n^{[l]}(l>0)$ ：第 $l$ 层隐藏单元数量，最后一层为输出单元，二分类个数为 1，多分类是输出单元个数可以为多个；

$x$ : 表示一个 n₁ 维数据，为输入数据，维度为 $n^{[0]}, 1)$ ；

$X = [x^{(1)}, x^{(2)}, …… , x^{(m)}]$ ，向量化表示所有训练数据的输入值，放在一个 $n_x*m$ 的矩阵中， m 为样本数目；

$W^{[l]}$ ：表示第 $l$ 层参数，维度为 $n^[l]*n^{[l-1]}$ ，形式如下：
$\left[ \begin{matrix} w_{11} & w_{12} & \cdots & w_{1n^{[l-1]}} \\ w_{21} & w_{22} & \cdots & w_{2n^{[l-1]}} \\ \vdots & \vdots & \ddots & \vdots \\ w_{n^{[l]}1} & w_{n^{[l]}2} & \cdots & w_{n^{[l]}n^{[l-1]}} \\ \end{matrix} \right]$
$b^{[l]}$ ：表示第 $l$ 层偏置值；

$z^{[l]}$ ：表示第 $l$ 层未经激活的输出值， $z^{[l]} = W^{[l]}a^{[l-1]}+b^{[l]}$ ， $z$ 为隐藏单元未经激活的输出，维度为 $n^{[l]}, 1)$ ；

$a^{[l]}$ ：表示第 $l$ 层经过激活的输出值， $a^{[l]} = g^{[l]}(z^{[l]})$ ， $a$ 为隐藏单元经激活的输出，维度为 $n^{[l]}, 1)$ ；

$Z^{[l]} = [z^{[l](1)}, z^{[l](2)}，…… z^{[l](m)}]$ ：多样本向量化的 $z^{[l]}$

$A^{[l]} = [a^{[l](1)}, a^{[l](2)}，…… a^{[l](m)}]$ ：多样本向量化的 $a^{[l]}$

2.2 激活函数

为什么需要非线性激活函数？

两个线性函数的组合本身就是线性函数，所以除非你引入非线性，否则你无法计算更有趣的函数，即使你的网络层数再多也不行。

如果你使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。

引入激活函数使得神经网络的表达能力不局限于线性，可以提供更复杂的表达能力。

常用非线性激活函数

$f (x)$	$f^{'} (x)$	优点	缺点
$\frac{1}{1+{e^{-x}}}$	$s i g m o d (x) (1 - s i g m o d (x))$	1. 输出范围是 0 到 1 2. 梯度平滑，便于求导	1. 容易造成梯度消失 2. 函数输出不是以 0 为中心的 3. 执行指数运算，消耗计算资源
$\frac{e^x-e^{-x}}{e^x+e^{-x}}$	$4 * s i g m o d (2 x) (1 - s i g m o d (2 x))$	1. 输出间隔为 1，并且整个函数以 0 为中心 2. 负输入将被强映射为负，而零输入被映射为接近零	1. 存在梯度饱和的问题 2. 执行指数运算，消耗计算资源
$R e LU (x) = ma x (0, x)$		1. 无梯度消失的问题 2. 线性、非饱和的，快速收敛 3. 计算复杂度低	1. 输出不是以0为中心的 2. 输入为负时，梯度为0。这个神经元及之后的神经元梯度永远为0
$\frac{e^{x_i}}{\sum_i{e^{x_i}}}$		1. 用于多分类问题