二分类问题-2

最新推荐文章于 2024-07-29 17:57:20 发布

阿苏尔

最新推荐文章于 2024-07-29 17:57:20 发布

阅读量2.9k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u010132497/article/details/79488754

版权

机器学习专栏收录该内容

35 篇文章 0 订阅

订阅专栏

本文来自于网易云课堂

二分类问题

logistic回归中的梯度下降法

本节主要用到三个核心公式：
$z = w^Tx + b$
$\hat y = a = \sigma (z)=\frac{1}{1+e^{(-z)}}$
$\mathcal L(a,y) = -(ylog(a) + (1-y)log(1-a))$

本文用到的符号说明：
$dz = \frac{\partial \mathcal L}{\partial z} ,一般记为\frac{d\mathcal L}{d z}$
$da = \frac{\partial \mathcal L}{\partial a} ，一般记为\frac{d\mathcal L}{d a}$
$dw = \frac{\partial \mathcal L}{\partial w}，一般记为\frac{d\mathcal L}{d w}$
$db = \frac{\partial \mathcal L}{\partial b} ，一般记为\frac{d\mathcal L}{d b}$

从下图中可以清晰的看出前向传播过程，现在开始计算导数。
这里写图片描述
公式的推导如下：
$\frac{d\mathcal L}{d a} = -\frac{y}{a} + \frac{1-y}{1-a}$
$\frac{da}{d z} = a(1-a)$
$dz = \frac{d\mathcal L}{dz} = \frac{d\mathcal L}{da} * \frac{da}{dz} = a-y$
$dw = \frac{d\mathcal L}{dw} = \frac{d\mathcal L}{d z} * \frac{dz}{dw} = (a-y)*x=dz*x$
$db = \frac{d\mathcal L}{db} = \frac{d\mathcal L}{d z} * \frac{dz}{db} = a-y = dz$

m个样本的梯度下降

核心公式：
$J(w, b) = \frac{1}{m} \sum_{i=1}^m { \mathcal L(a^{(i), y})}$
$a^{(i)} = \hat y^{(i)} = \sigma(z^{(i)}) = \sigma(w^T x^{(i)} + b)$
$\frac{\partial }{\partial w_1}J(w, b) = \frac{1}{m} \sum_{i=1}^m\frac{\partial }{\partial w_1} { \mathcal L(a^{(i), y})}=\frac{1}{m} \sum_{i=1}^m dw_1^{(i)}$

全局成本函数实际上是各项损失函数的平均，相应的，全局成本函数对 $w_1$ 的导数同样是各项损失函数对 $w_1$ 的平均。所以，我们实际要做的就是计算全局梯度导数 $\frac{\partial }{\partial w_1}J(w, b)$ ，于是我们可以这样来表示算法。
这里写图片描述
但是，这种计算方式并不完美，我们可以从编程上对其进行改进。首先，这种算法需要写2个for循环，一个遍历m个样本，一个遍历每个样本中的n个特征（上图中只有2个特征）。当使用深度学习算法时会发现，使用for循环会使得算法很低效。同样，在深度学习领域会有越来越大的数据集，所以能够应用你的算法完全不使用显示for循环是很有帮助的。而向量化技术的出现能够帮助你的代码摆脱这些显示的for循环。

向量化

import numpy as np
import time 

a = np.random.rand(1000000)
b = np.random.rand(1000000)

tic = time.time()
c = np.dot(a, b)
toc = time.time()
print c
print "Vectorized version:" + str(1000 * (toc - tic)) + "ms"

c = 0
tic = time.time()
for i in range(1000000):
    c += a[i]*b[i]
toc = time.time()
print c
print "for loop:" + str(1000 * (toc - tic)) + "ms"

250134.41753492085
Vectorized version:3.00002098083ms
250134.4175349188
for loop:524.999856949ms

从时间对比上我们看到向量化相比for循环可以节省将近200倍的时间。对于深度学习算法，利用向量化后效率可以大大提升。一个经验法则就是，在计算回归时尽量避免使用for循环。

python中的numpy模块可以实现向量化的运算。

import numpy as np

a = np.zeros((1, 10))
b = np.exp(a)
b

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]])

m个样本的logistic回归

首先我们通过向量化消除第一个循环，过程如下图：
这里写图片描述
对于m个样本，我们可以得到这样一个公式：
$Z = W^T X + b, Z \in R^{1 \times m}, W \in R^{n \times 1}, X \in R^{n \times m},$
其中， $Z$ 表示m个输出， $X$ 表示样本矩阵，含有m个样本，每个样本有n个特征值， $W$ 表示有n个参数，b表示阈值。由于python中存在的广播机制可以让b与矩阵相加，其实就是将b复制扩展为同维度的矩阵。
其次我们通过向量化消除第二个循环，过程如下图：
这里写图片描述

我们可以将算法进一步修改为如下图所示，这样就实现了一次迭代。当然如果想要使用多次迭代，恐怕还是得使用for循环。

$Z = W^T X + b = np.dot(W.T, X) + b$
$A = \sigma {(z)}$
$dZ = A - Y$
$dW = \frac{1}{m} XdZ^T$
$db = \frac{1}{m}np.sum(dZ)$
$W = W - \alpha dW$
$b = b - \alpha db$