从逻辑回归开始入门深度学习

最新推荐文章于 2022-11-18 18:49:04 发布

csdn0006

最新推荐文章于 2022-11-18 18:49:04 发布

阅读量301

点赞数

分类专栏： DL

本文链接：https://blog.csdn.net/csdn0006/article/details/106009079

版权

本文介绍了从逻辑回归开始学习深度学习的过程，详细讲解了逻辑回归的原理、损失函数、梯度下降以及计算图。通过单个样本和多样本的计算，展示了逻辑回归的优化过程。接着讨论了浅层神经网络（2层）的前向传播和反向传播，并扩展到深层神经网络。文章总结了神经网络的计算流程，强调了向量化计算在提高效率方面的重要性。

摘要由CSDN通过智能技术生成

从逻辑回归开始入门深度学习

本文主要来源于吴恩达《深度学习与神经网络》。本文根据课程内容做一个串联。

本文内容安排如下：

符号定义
逻辑回归LR：定义、实现、高效实现
浅层神经网络（2层）：实现、优化
深度神经网络：实现、优化、应用

我们以一个分类问题作为研究背景。研究问题为判断输入图片是否为猫咪的二分类。

符号定义

在解决问题之前，我们先对使用的数学符号做一个定义：

（x, y）: 输入样本; x ∈ $R^{n_x}$ , y ∈ {0, 1}
{ $x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)})... (x^{(m)}, y^{(m)})$ }: 训练数据集，包含m个训练样本
[a,b,c,…,z].T: 向量，默认情况下，向量指的是列向量
$m = m_{train}$ , $m_{test}$ =#test examples
$X \in R^{n_x * m} $: 训练集，训练样本以 * * 列的方式 * * 进行堆叠，换言之， X 矩阵的每一列是一个样本，而不是行； X . s h a p e = ($ n_x$, m)
$\in R^{1*m}$ : 训练标签，标签以列的方式进行堆叠, $Y . s h a p e = (1, m)$

逻辑回归

在介绍逻辑回顾处理图片分类。我们处理的问题是二分类，输入一张图片判断图片中是否有猫。输入图片格式为RGB三色图，像素取值为0~255。

原理介绍

逻辑回归用于处理二分类问题。逻辑回归中 $\hat{h} = P(y=1|x)$ 用于计算输入样本为1的概率。以单个样本为例，其计算公式为
$\hat{y} = sigmoid(w^Tx+b)$
其中， $\in R^{n_x}$ , $\in R^{n_x}$ , $\in R$ 。输出结果的取值范围为[0, 1]。

逻辑回归其实是线性回归的进一步加工，线性回归计算结果的取值范围为 $(-\infty, +\infty)$ ，我们将线性回归的计算结果使用sigmoid将范围压缩到[0, 1].

Sigmoid是一种非线性的S型函数，取值范围在[0, 1]，这种输出值可以别理解为概率表示。Sigmoid函数的计算公式和曲线如下。
$\frac{1}{1+e^{-z}}$
Sigmoid

从上图可以看出，sigmoid取值范围为[0, 1]，当自变量z非常小时，sigmoid趋近于0；当z非常大时，sigmoid趋近于1（实际上当z=10时，输出值为0.9999，非常趋近于1）。

Loss function

我们现在知道了如何使用逻辑回归计算一个样本为正例的概率，那么如何评估模型的好坏呢？这就依赖于损失函数。

给定一个样本 $x^{(i)}, y^{(i)})$ ,使用逻辑回归计算这个样本为正例的概率P(y=1|x),
$\hat{y}^{(i)} = \sigma(w^Tx^{(i)} + b), where \ \sigma(z)=\frac{1}{1+e^{-z}}$
理想情况下，输出结果 $\hat y$ 应该和样本标签y尽可能相等，即 $\hat y^{(i)} \approx y^{(i)}$
$L(\hat y, y) = -(ylog\hat y + (1-y)log(1-\hat y))$
当y=1时， $L(\hat y, y)=-log\hat y$ ；当y=0时， $L(\hat y, y) = -log(1-\hat y)$ .

在全部训练样本上，损失函数cost function为
$\frac1{m}\sum_{i=1}^m L(\hat y, y) = -\frac1{m}\sum_{i=1}^m[y^{(i)}log\hat y^{(i)} + (1-y^{(i)})log(1-\hat y^{(i)})]$
损失函数是参数w，b的函数，我们想要通过最小化损失函数找到最佳的参数w，b，最后用于样本的预测[通过最小化损失函数，我们可以保证预测结果与真实样本标签之间差距尽可能小，进而保证预测结果的准确性]。

LR损失函数可以使用最大似然估计来进行推导。

Gradient Descent

知道了模型的损失函数，接下来就是通过最小化损失函数得到最终的参数w，b。常用的方法是使用梯度下降法，使用当前位置的偏导数对参数进行更新，反复多次后，损失函数到达最低点，此时w，b即为最终结果。

Gradient Descent

使用梯度下降算法，w，b的更新公式如下：
$\alpha \frac{\partial J(w, b)}{\partial w} \\b = b - \alpha \frac{\partial J(w, b)}{\partial b}$
其中， $\alpha$ 为学习率，含义是每次参数更新的步幅；如果 $\alpha$ 过大，导致参数更新幅度过大，可能会错过模型的最优值；如果 $\alpha$ 过下，导致每次更新幅度很小，模型需要更多的迭代次数才能收敛。在程序代码中，我们使用dw表示 $\frac{\partial J(w, b)}{\partial w}$ , db表示 $\frac{\partial J(w, b)}{\partial b}$

最低0.47元/天解锁文章

csdn0006

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从逻辑回归开始入门深度学习

从逻辑回归开始入门深度学习本文主要来源于吴恩达《深度学习与神经网络》。本文根据课程内容做一个串联。本文内容安排如下：符号定义逻辑回归LR：定义、实现、高效实现浅层神经网络（2层）：实现、优化深度神经网络：实现、优化、应用我们以一个分类问题作为研究背景。研究问题为判断输入图片是否为猫咪的二分类。符号定义在解决问题之前，我们先对使用的数学符号做一个定义：（x, y）: 输入样本; x ∈ RnxR^{n_x}Rnx, y ∈ {0, 1}{(x(1),y(1)),(x(2),y
复制链接

扫一扫

专栏目录