Coursera deeplearning.ai 深度学习笔记1-2-Neural Network Basics-逻辑回归原理推导与代码实现

最新推荐文章于 2021-10-09 16:53:21 发布

VIP文章 tu天马行空

最新推荐文章于 2021-10-09 16:53:21 发布

阅读量568

点赞数 1

分类专栏： Coursera 深度学习文章标签： coursera deep-learning 深度学习逻辑回归

本文链接：https://blog.csdn.net/tuzhen301/article/details/78756838

版权

逻辑回归(Logistic Regression)是一个非线性回归模型，主要应用于0、1分类问题，也可看作单层的神经网络。

1. 原理推导

1.1 样本定义

每个样本计作(x, y)，其中x为特征向量，y为标签0或1，x包含n_x个特征：
$x = \left[ {\begin{array}{*{20}{c}}{{x_1}}\\{{x_2}}\\ \vdots \\{{x_{{n_x}}}}\end{array}} \right]\tag{1}$
训练集包含m个样本： $\left\{ {\left( {{x^{\left( 1 \right)}},{y^{\left( 1 \right)}}} \right),\left( {{x^{\left( 2 \right)}},{y^{\left( 2 \right)}}} \right), \cdots ,\left( {{x^{\left( m \right)}},{y^{\left( m \right)}}} \right)} \right\}$ ，上标(m)为第m个样本。

1.2 逻辑回归模型

问题：给定x，如何训练参数w和b，得到期望值 $a = P\left( {\left. {y = 1} \right|x} \right)$ ?
为了保证期望值a在0 ~ 1之间，给定逻辑回归模型：
$z = {w^T}x + b\tag{2}$
$a = \sigma \left( z \right)\tag{3}$
式中，w维度为(n_x, 1)，b为实数，z为线性模型，σ(z)为非线性的sigmoid函数。

1.3 sigmoid函数

$\sigma \left( z \right) = \frac{1}{{1 + {e^{ - z}}}}\tag{4}$
当z → ∞时，σ(z) → 1；当z → -∞时，σ(z) → 0。函数值处于0 ~ 1之间，因此适合于0、1分类问题。曲线如下：

1.4 代价函数(Cost Function)

目标：给定训练集 $\left\{ {\left( {{x^{\left( 1 \right)}},{y^{\left( 1 \right)}}} \right),\left( {{x^{\left( 2 \right)}},{y^{\left( 2 \right)}}} \right), \cdots ,\left( {{x^{\left( m \right)}},{y^{\left( m \right)}}} \right)} \right\}$ ，预测值a⁽ⁱ⁾ ≈ y⁽ⁱ⁾。
由于期望 $a = P\left( {\left. {y = 1} \right|x} \right)$ ，可得：
$\left\{ \begin{array}{l}P\left( {\left. {y = 1} \right|x} \right) = a\\P\left( {\left. {y = 0} \right|x} \right) = 1 - a\end{array} \right.\tag{5}$
使用概率论中极大似然估计(Maximum Likelihood Estimate，MLE)的方法来计算损失函数，可将概率写成：
$P\left( {\left. y \right|x} \right) = {a^y}{\left( {1 - a} \right)^{1 - y}}\tag{6}$
取对数似然函数：
$\log \left[ {P\left( {\left. y \right|x} \right)} \right] = y\log a + \left( {1 - y} \right)\log \left( {1 - a} \right) = - L\left( {a,y} \right)\tag{7}$
上式中，L(a, y)为损失函数(Loss Function)，最大似然估计的目标是使log[P(y|x)]最大化，也就是损失函数L(a, y)最小化。则损失函数为：
$L\left( {a,y} \right) = - \left[ {y\log a + \left( {1 - y} \right)\log \left( {1 - a} \right)} \right]\tag{8}$
当y = 1时， $L\left( {a,1} \right) = - \log a$ ，要使L尽可能小，则预测值a尽可能大，最大为1；
当y = 0时， $L\left( {a,0} \right) = - \log \left( {1 - a} \right)$ ，要使L尽可能小，则预测值a尽可能小，最小为0。
对于m个训练样本，假设训练样本互相独立，则m个样本的联合概率可以写成：
Pmsamples=∏i=1mP(y(i)∣∣x(i))

最低0.47元/天解锁文章

tu天马行空

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Coursera deeplearning.ai 深度学习笔记1-2-Neural Network Basics-逻辑回归原理推导与代码实现

Coursera deeplearning.ai 深度学习笔记1-2-Neural Network Basics-逻辑回归原理推导与代码实现
复制链接

扫一扫