深度强化学习王树森第一章-机器学习基础

笨cc

已于 2023-10-17 13:58:51 修改

阅读量194

点赞数 1

分类专栏：深度强化学习-王木森文章标签：机器学习人工智能深度学习

于 2023-10-15 20:20:32 首次发布

本文链接：https://blog.csdn.net/cc_xiaodi/article/details/133847026

版权

深度强化学习-王木森专栏收录该内容

2 篇文章 0 订阅

订阅专栏

线性模型

线性模型是一类最简单的监督机器学习模型,常用于简单的机器学习任务.

线性回归

拟合一个函数 $y = W x + b$ ,用于预测一个离散值.其中, $W$ 和 $b$ 都是需要拟合求解的系数, $x$ 为自变量, $y$ 为因变量.

最小二乘法

一种确定线性回归中 $W$ 和 $b$ 的一种方法（规则）.

设有 $n$ 个样本，真实值为 $y_1,y_2,···,y_n$ ，最小二乘法就是要寻找一组系数 $W, b$ ,令 $\tilde y = Wx + b$ ,使得 $\sum_{i=1}^{n}(\tilde y_i - y_i)^2$ 最小.

可以通过矩阵求逆的方式得到解析解,也可以通过梯度下降进行迭代求解.

逻辑斯提回归

一种用于二分类的线性回归方法.

逻辑斯提回归输出一个 $(0, 1)$ 之间的预测值,表示样本属于正样本的概率,当输出值小于某一阈值时(通常为0.5),则判定为负样本.

对于普通的线性回归而言,其预测值的范围在 $(-\infty,\infty)$ 之间.因此需要借助一个函数将其映射到 $(0, 1)$ 之间.即: $s i g m o i d$ 函数.

$z = W x + b$
$\tilde y = sigmoid(z) = \frac{1}{1 + exp^{-z} }$

softmax回归

softmax回归是一种多分类线性回归的方法.

在二分类当中,我们使用一个真实值 $p$ ,表示样本的分类概率为 $p, 1 - p$ .

而在多分类中,我们使用 $o n e - h o t$ 编码对样本进行分类.具体如下:

假设存在三个类别 $y_1,y_2,y_3$ ,那么就可以使用一个三维向量表示其属于每个类别的概率.例如,对于一个 $y_2$ 样本,其 $o n e - h o t$ 编码就为 $[0, 1, 0]$ .

在二分类中,我们使用线性回归预测其属于正样本的概率.

同样地,推广至多分类当中,我们可以用线性回归得到样本属于每个分类的概率,将其记作 $z_1,z_2,z_3]$ .

由概率论可知, $z_1 + z_2 + z_3 = 1$ 且 $z_i > 0$ ,因此我们引入softmax函数,使其达到这一要求.

$\tilde Y =(\tilde y_1,\tilde y_2,\tilde y_3) = softmax(Z)=\frac{1}{\sum_{i=1}^{3}exp^{-z}}[z_1,z_2,z_3]$
通过上式,即可得到样本属于每个类别的概率.输出概率最大的结果即可.

为了确定预测值与真实值之间的差距,引入交叉熵进行计算.

设有两个 $m$ 维的离散概率分布, $p = [p_1,p_2,p_3,···,p_m]$ 和 $q = [q_1,q_2,q_3,···,q_m]$ ,其中向量元素均大于零,且每个向量元素之和为1.则 $p, q$ 的交叉熵定义为:

$\sum_{j=1}^{m}p_j·ln^{q_j}$
熵通常表示一个系统的混乱程度.对于交叉熵而言,则是两个向量之间的差异,我们为了让预测值尽可能接近真实值,就要 $min (H (p, q))$ ,优化通常使用梯度下降.

神经网络

全连接神经网络

在线性回归中,我们拟合的是一个简单的线性函数,然而在实际中大多数函数是非线性的,因此借助全连接神经网络函数来进行拟合.

首先引入激活函数,使得函数具有非线性,然后通过各个函数的组合叠加,完成对复杂函数的拟合.

上述关于神经网络的拟合可以参考李宏毅老师的视频,生动直接.李宏毅机器学习P4

梯度下降

梯度下降是机器学习中常用的优化方法.

在机器学习中,我们的目标是最小化损失函数.

以简单的模型为例,假设 $L$ 表示损失函数, $W$ 表示拟合的参数.

$\tilde y = Wx,L = \sum(y - \tilde y)^2$

对于给定的 $x$ 而言,显然, $L$ 是关于 $W$ 的函数.

因为样本数据是已知的,所以 $x$ 是给定的,我们的目标是求解 $W$ ,使得 $L$ 最小.

在一元函数中,导数是速度上升最快的方向,而在多元函数中,梯度是速度上升最快的方向.

在机器学习中,参数通常有多个,因此需要计算梯度.

如果我们沿着梯度的反方向不断更新 $W$ ,理论上就可以到达 $L$ 的最小值点,自然也就求出了对应的 $W$ .

通俗的理解是,我们站在群山之中,我们只要沿着最陡的地方往下走,就能到达山脚.

这是理想的情况.在实际中,我们可能会到达局部最小点.因为不同的山之间,他们的山脚海拔也不同.
为了解决这一问题,后续产生了很多梯度下降的进阶方法.

反向传播

反向传播的本质是链式法则.

神经网络的每一层都可以看做一个复合函数,所以神经网络本身也是一个巨大的复合函数.

如果需要梯度下降对参数进行更新,就需要用到反向传播.

以第一层的参数 $W_1$ 为例,如果需要梯度下降,那么就需要损失函数 $L$ 对第一层的参数 $W_1$ 进行求导.

而 $W_1$ 到损失函数 $L$ 经过了其它层参数 $W_2,W_3,···$ ,就需要借助链式法则进行求导，也就是反向传播.

当前的深度学习框架,已经可以直接调用进行方向传播,因此了解过程即可.

笨cc

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习王树森第一章-机器学习基础

是一类最简单的监督机器学习模型,常用于简单的机器学习任务.
复制链接

扫一扫

专栏目录