机器学习 Machine Learning（by Andrew Ng）----第四章逻辑回归(Logistic Regression)

最新推荐文章于 2022-07-12 18:10:01 发布

赵纯良

最新推荐文章于 2022-07-12 18:10:01 发布

阅读量1.7k

点赞数 2

分类专栏： Machine Learning 文章标签： Andrew Ng ml stanford 机器学习

本文链接：https://blog.csdn.net/A2275037460/article/details/52002216

版权

Machine Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第四章逻辑回归(Logistic Regression)

<分类(Classification) >

<假设表示(Hypothesis Representation) >

<决策边界(Decision Boundary)>

<代价函数(Cost Function)>

<简化的代价函数和梯度下降(Simplified Cost Function and Gradient Descent)>

<高级优化(Advanced Optimization)>

<多类别分类--一对多(Multiclass Classification：One vs All)>

1.分类(Classificstion)和假设表示(Hypothesis Representation)

在分类问题中，你要预测的变量 y 是离散的值，我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法，这是目前最流行使用最广泛的一种学习算法.

首先，我们从二分类问题开始讨论，其中0表示负向类，1表示正向类。

回顾在一开始提到的乳腺癌分类问题，我们可以用线性回归的方法求出适合数据的一条直线：

根据线性回归模型我们只能预测连续的值，然而对于分类问题，我们需要输出0或1，我们可以预测：

当h_θ大于等于0.5时，预测y=1。

当h_θ小于0.5时，预测y=0 。

对于上图所示的数据，这样的一个线性模型似乎能很好地完成分类任务。假使我们又观测到一个非常大尺寸的恶性肿瘤，将其作为实例加入到我们的训练集中来，这将使得我们获得一条新的直线。

这时，再使用0.5作为阀值来预测肿瘤是良性还是恶性便不合适了。可以看出，线性回归模型，因为其预测的值可以超越[0,1]的范围，并不适合解决这样的问题。

我们引入一个新的模型，逻辑回归，该模型的输出变量范围始终在0和1之间。逻辑回归模型的假设是：h_θ(x)=g(θ^TX)

其中：

X 代表特征向量

g 代表逻辑函数（logistic function）是一个常用的逻辑函数为S形函数（Sigmoid function）。

具体信息如下图所示：

上图中的Sigmoid function 或者是Logistic function，就是这样一个函数g(z)。见上图所示。

当z>=0时，g(z)>=0.5；当z<0时，g(z)<0.5

h_θ(x)的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1的可能性（estimated probablity）即。

我们还可以得到如下关系：

逻辑回归算法实际上是分类算法，我们不要收到“回归”二字的误导。它的性质就是：它的输出值永远在0到1之间。

2.决策边界(Decison Boundary)

下面我们来介绍决策边界的定义。这个概念能更好的帮助我们立即逻辑回归的假设函数在做什么。

所谓的决策边界，就是将所有数据点进行分类的边界。现在假设我们有一个模型：

并且参数θ是向量[-3 1 1]。则当-3+x₁+x₂ 大于等于0，即x₁+x₂大于等于3时，模型将预测y=1。我们可以绘制直线x₁+x₂=3，这条线便是我们模型的分界线，将预测为1的区域和预测为0的区域分隔开。

下面我们来看另一个以半径为1的圆为分类边界的例子：

事实上，我们可以用非常复杂的模型来适应非常复杂形状的判定边界。而决策边界的目的就是要把属于不同类别的部分以最精确的方式区分开。

3.代价函数(Cost Function)

下面我们要介绍如何拟合逻辑回归模型的参数θ。具体来说，我要定义用来拟合参数的优化目标或者叫代价函数，这便是监督学习问题中的逻辑回归模型的拟合问题。

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上来说，我们也可以对逻辑回归模型沿用这个定义，但是问题在于，当我们将h_θ(x)带入到:

这样的代价函数中时，我们得到的代价函数将是一个非凸函数（non-convex function）。

这意味着我们的代价函数有许多局部最小值，这将影响梯度下降算法寻找全局最小值。

我们重新定义逻辑回归的代价函数为：

由于y只会取0或者1，所以可以得到下图所示公式：

其中，h _θ(x) 与 Cost(h _θ(x),y) 之间的关系如下图所示：

4.简化的代价函数和梯度下降(Simplified Cost Function and Gradient Descent)

下面我们对逻辑回归函数进行梯度下降法处理:

注：虽然得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样，但是这里的 h_θ(x)=g(θ^TX)与线性回归中不同，所以实际上是不一样的。

下面我们对求偏导的过程进行详细描述：

下面我们主要分析参数更新如何简单化。我们可以使用 for 循环来更新这些参数值，用 for i=0 to n，或者for i=1 to n+1。

我们可以换种方式来表示。

那么如何能够不使用for循环从而简化计算呢：上图也已经给出了答案。那就是使用向量化的方法。换言之，我们不要用for循环一个个更新θj，而用一个矩阵乘法同时更新整个θ。当然，如果你的特征范围差距很大的话，同样可以将特征缩放的方法应用到逻辑回归中，梯度下降收敛更快。

5.高级优化(Advanced Optimization)

这里我们介绍三种优化方法。其实，除了gradient descent 方法之外，我们还有很多方法可以使用。如下图所示，左边是另外三种方法，右边是这三种方法共同的优缺点，无需选择学习率α，更快，但是更复杂。

Octave 有一个非常理想的库用于实现这些先进的优化算法，所以，如果你直接调用它自带的库，你就能得到不错的结果。因此现在让我们来说明如何使用这些算法。

举个例子。

你有一个含两个参数的问题，这两个参数是θ₀ 和θ₁，因此，通过这个代价函数，你可以得到θ₁ 和 θ₂的值，如果你将J(θ) 最小化的话，那么它的最小值将是θ₁等于5 ，θ₂ 等于5。代价函数J(θ)的偏导数推出来就是上面两个表达式。如果我们不知道最小值，但你想要代价函数找到这个最小值，是用比如梯度下降这些算法，但最好是用比它更高级的算法，你要做的就是运行一个像这样的Octave函数：

这样就计算出这个代价函数，函数返回的第二个值是梯度值，梯度值应该是一个2×1的向量，梯度向量的两个元素对应这里的两个偏导数项，运行这个costFunction函数后，你就可以调用高级的优化函数，这个函数叫fminunc，它表示Octave里无约束最小化函数。调用它的方式如下：

你要设置几个 options，这个options变量作为一个数据结构可以存储你想要的options，所以GradObj和On，这里设置梯度目标参数为打开(on)，这意味着你现在确实要给这个算法提供一个梯度，然后设置最大迭代次数，比方说100，我们给出一个θ 的猜测初始值，它是一个2×1的向量，那么这个命令就调用fminunc，这个@符号表示指向我们刚刚定义的costFunction函数的指针。如果你调用它，它就会使用众多高级优化算法中的一个，当然你也可以把它当成梯度下降，只不过它能自动选择学习速率α，你不需要自己来做。然后它会尝试使用这些高级的优化算法，就像加强版的梯度下降法，为你找到最佳的θ值。让我告诉你它在Octave里什么样：