Coursera机器学习笔记第3周第六章逻辑回归（二）_吴恩达逻辑回归的代价函数-CSDN博客

本文链接：https://blog.csdn.net/shengchaohua163/article/details/78485469

第六章逻辑回归（二）

第2节逻辑回归模型（Logistic Regression Model）

6.4 代价函数

参考视频: 6 - 4 - Cost Function (11 min).mkv

我们将要介绍如何拟合逻辑回归模型中的参数 $\theta$ 。具体来说，我要定义用来拟合参数的优化目标或者叫代价函数，这便是监督学习问题中的逻辑回归模型的拟合问题。
逻辑回归问题

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上来说，我们也可以对逻辑回归模型沿用这个定义，但是问题在于，当我们将 $h_{\theta}(x)=\frac {1}{1+e^{-\theta^T x}}$ 代入到这样定义了的代价函数中，我们得到的代价函数将是一个非凸函数（non-convex function）。这意味着我们的代价函数有很多局部最小值，这将影响梯度下降算法寻找全局最小值。
非凸函数与凸函数

回忆一下，线性回归的代价函数为： $J(\theta)=\frac {1}{m} \sum_{i=1}^{m}\frac {1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^2$

在逻辑回归中，我们重新定义逻辑回归的代价函数为： $J(\theta)=\frac {1}{m} \sum_{i=1}^{m}Cost(h_{\theta}(x^{(i)}),y^{(i)})$

其中 $Cost(h_{\theta}(x),y)=\begin{cases} -log(h_{\theta}(x)) & \text{ if } y=1 \\ -log(1-h_{\theta}(x)) & \text{ if } y=0 \end{cases}$

$h_{\theta}(x)$ 与 $Cost(h_{\theta}(x),y)$ 之间的关系如下图所示：

这样构建的 $Cost(h_{\theta}(x,y))$ 函数的特点是：当实际的 $y = 1$ 且 $h_{\theta}$ 也为 1 时误差为 0，当 $y = 1$ 但 $h_{\theta}$ 不为 1 时误差随着 $h_{\theta}$ 的变小而变大；当实际的 $y = 0$ 且 $h_{\theta}$ 也为 0 时误差为 0，当 $y = 0$ 但 $h_{\theta}$ 不为 0 时误差随着 $h_{\theta}$ 的变大而变大。

将构建的 $Cost(h_{\theta}(x),y)$ 简化如下： $Cost(h_{\theta}(x),y)=-y\times log(h_{\theta}(x))-(1-y)\times log(1-h_{\theta}(x))$

代入代价函数得到： $J(\theta)=-\frac {1}{m}\sum_{i=1}^{m} \left[y^{(i)}log h_{\theta}(x^{(i)}) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))\right]$

梯度下降算法：
$\text{Repeat\{}\\ \quad \theta_j :=\theta_j - \alpha \frac {\partial}{\partial\theta_j}J(\theta) \;\;\;(simultaneously\ update\ all) \\ \}$

求导后得到： $\frac {\partial}{\partial\theta_j}J(\theta) = \frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}$

所以梯度下降算法变为(m为数据集的条目数，因此可以看作常数)：
$\text{Repeat\{} \\ \quad \theta_j :=\theta_j - \alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)} \quad \text{(simultaneously update all)} \\ \}$

在这个视频中，我们定义了单训练样本的代价函数，该函数是一个凸函数（凸性分析超出范围，不给出证明直接使用），并且没有局部最优值。

除了梯度下降算法以外，还有一些常被用来令代价函数最小的算法，这些算法更加复杂和优越，而且通常不需要人工选择学习率，通常比梯度下降算法要更加快速。有：共轭梯度（Conjugate Gradient），局部优化法（Broyden fletcher goldfarb shann, BFGS）和有限内存局部优化法（LBFGS）。fminunc是matlab和octave中都带的一个最小值优化函数，使用时我们需要提供代价函数和每个参数的求导，下面是octave中使用fminunc函数的代码示例（非重点）：

function [jVal, gradient] = costFunction(theta)
    jVal = [...code to compute J(theta)...];
    gradient = [...code to compute derivative of J(theta)...];
end
options = optimset('GradObj', 'on', 'MaxIter', '100');
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

在下一节中，我们会把单训练样本的代价函数的这些理念进一步发展，然后给出整个训练集的代价函数的定义。我们还会找到一种比目前用的代价函数更简单的写法，并应用梯度下降法得到我们的逻辑回归算法。

6.5 简化的成本函数和梯度下降

参考视频 : 6 - 5 - Simplified Cost Function and Gradient Descent (10 min).mkv

我们将会找出一种稍微简单一点的方法来写代价函数来替换我们现在用的方法，同时还要弄清楚如何运动梯度下降法来拟合逻辑回归的参数。

逻辑回归的代价函数：
$J(\theta)=\frac {1}{m} \sum_{i=1}^{m}Cost(h_{\theta}(x^{(i)}),y^{(i)}) \\ Cost(h_{\theta}(x),y)=\begin{cases} -log(h_{\theta}(x)) & \text{ if } y=1 \\ -log(1-h_{\theta}(x)) & \text{ if } y=0 \end{cases} \\ Note: y=0\ or\ 1\ always$

使用梯度下降（gradient descent），求导后得到（把常数 $\frac{1}{m}$ 合并到 $\alpha$ 中）：
$\text{Repeat\{} \\ \quad \theta_j :=\theta_j - \alpha\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)} \quad \text{simultaneously update all)} \\ \}$

我们采用向量化的方法来同时更新所有 $\theta$ 的值：

把 $j = 0, 1, . . ., n$ 的公式写出来，便于理解
把学习结果与实际类标签间的误差 $h_{\theta}(x^{(i)})-y^{(i)}$ 求出来，记作 $e r r o r$
更新： $\theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ ...\\ \theta_n \end{bmatrix} ， \theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \theta_2\\ ...\\ \theta_n \end{bmatrix}-\alpha\sum_{i=1}^{m}error*x_j^{(i)}$

你会发现这个方法正是用来做线性回归梯度下降的。

在线性回归中讲到了特征缩放，它提高梯度下降的收敛速度，并且也适用于逻辑回归。如果你的特征范围差距很大的话，那么应用特征缩放的方法，也可以逻辑回归的梯度下降收敛更快。

6.6 高级优化

参考视频 : 6 - 6 - Advanced Optimization (14 min).mkv

暂略。

第3节多类别分类（Multiclass Classification）

6.7 多类别分类：一对多

参考视频 : 6 - 7 - Multiclass Classification_ One-vs-all (6 min).mkv

二元分类问题的数据分布可能是：
这里写图片描述

而多元分类的问题，数据集可能是这样：
这里写图片描述

我们用三种不同的符号来表示三个类别，问题就是在三个类型的数据集，我们如何进行分类。

简单来说，一对多的分类工作是：先将class 1看作正类（y=1），其余看作负类（y=0），得到模型 $h_{\theta}^{(1)}(x)$ ；再将class 2看作正类（y=1），其余看作负类（y=0），得到模型 $h_{\theta}^{(2)}(x)$ ；最后将class 3看作正类（y=1），其余看作负类（y=0），得到模型 $h_{\theta}^{(3)}(x)$ 。所以这个方法也叫做“一对余”方法。如下图：