coursera斯坦福大学机器学习笔记（4）：逻辑回归（Logic Regression）分类（classification）

最新推荐文章于 2024-07-27 10:38:25 发布

qqr1110

最新推荐文章于 2024-07-27 10:38:25 发布

阅读量954

点赞数 3

分类专栏： Machine Learning 文章标签：机器学习逻辑回归分类 coursera 梯度下降

Machine Learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

面对一些类似回归问题，我们可以通过线性回归方法来拟合一个函数，以此来预测数据，但它的输出是连续的。有时候呢，我们需要一种方法给出一个判定结果，例如”同意(agree)”、”不同意(disagree)”。、下面呢就是关于这个方法的新内容，叫做分类(Classification)问题。又例如，如果我们需要预测一辆汽车是好的还是坏的，只有两种结果：好、坏。这种输出为0或者1的问题，就叫做分类问题，而我们对应与此种问题所采用的方法即是逻辑回归(Logistic regression)。

1.分类及其表示(Classification and Representation)

i.分类(Classification)

首先来看看分类(Classification)问题，在第一段中已经简单介绍了什么是分类问题，下面再来举几个例子：

Examples	Purposes
Email	Spam / Not Spam?
Online Transaction	Fraudulent (Yes / No?)
Tumor	Malignant / Benign?

第一个例子是判断垃圾邮件，对一封邮件，我们需要判断它是否为垃圾邮件；第二个例子是在线交易，我们需要判断这个交易是否有欺诈的嫌疑；最后一个例子是肿瘤评估，我们需要对一个病人的病情进行综合分析，来判断肿瘤是恶性的还是良性的。

详细地，我们以肿瘤评估为例。我们有如下图所示的一些样本，其横坐标表示肿瘤的大小，纵坐标表示性态（良性还是恶性）：

假设我们用一条直线 hθ(x)=θTX 来拟合这些数据，其图像可能大致如下：
这里写图片描述

如上图所示， hθ(x ）为紫色的直线，如果我们选择 0.5 作为一个基准点来判断一个肿瘤是良性还是恶性的:

I f h θ (x) \geq 0.5, p r e d i c t " y = 1 "

I f h θ (x) < 0.5, p r e d i c t " y = 0 "

那么对于上面的数据，看起来好像还不错。但是我们增加一组额外的样本来看看：
这里写图片描述

如上图所示，我们增加了一组数据，通过 线性回归（Linear Regression）得到了一条蓝色的直线，但是其看起有点不那么理想，例如有几个恶性肿瘤，也会被分类为良性肿瘤。所以，在分类问题中， 线性回归通常不是一个很好的办法。所以我们需要使用 逻辑回归(Logistic regression)来解决分类问题。逻辑回归是一个 分类算法(classification algorithm)在逻辑回归中，我们要求 0≤hθ(x)≤11，下面我们就来看看逻辑回归的假设函数。

ii.假设函数(Hypothesis)

上面我们提到了，在只有两种结果的分类问题中，它的输出不是 0

即是 1 ，所以我们想要将 分类器(classifier)的输出控制在 [0,1]] 上。在 线性回归中，我们的假设函数为 hθ(x)=θTX ，显然其输出并不只限于区间 [0,1]]

，所以线性回归中的假设函数在逻辑回归(Logistic regression)中是不合适的。这里我们使我们的假设函数为：

h θ (x) = g (θ T X))

其中，函数 g的形式为：

g (z) = 1 1 + e - z

其图像为：

其与 y 轴的交点为 (0,0.5)) ，所以假设函数为：

h θ (x) = 1 1 + e - θ T X

现在我们来看一下逻辑回归(Logistic regression)的假设函数的具体意义是什么。
这里的函数 hθ(x))

代表的是关于输入 x ，使得 y=11

的可能性。来举个例子：
假设有两个特征：

其中 x1 为 1，这是我们之前约定好的（文章开头列出的文章）， x2 表示肿瘤的大小。假如 hθ(x)=0.70.7 ，这就表示病人的肿瘤为恶性肿瘤的可能性为0.7 0.7 。进一步地，可以将假设函数表示为：

即给定参数 θ θθθ ，关于输入 x ，使得 y=11 的可能性。进一步，我们也可以知道如下的结论：

P (y = 0 | x; θ) + P (y = 1 | x; θ) =1 1

P (y = 0 | x; θ) = 1 - P (y = 0 | x; θ))

假设函数的形式就讲到这里，下面讲一讲 决策边界(Decision boundary)。

iii.决策边界(Decision Boundary)

前面提到了 hθ(x)=P(y=1|x;θ)))

，那什么时候 hθ(x)) 的值为1 1 ，什么时候为0 0

呢？一般规定：

{10 if h θ (x) \geq 0.5; if h θ (x) < 0.5 .

同时，我们发现对于函数 g(z) ：
这里写图片描述

当 z≥00 时， hθ(x)≥0.50.5 ,当 z<00 时， hθ(x)<0.50.5 。即对于 hθ(x)=g(θTX)≥0.50.5 ，有 θTX≥00 ；同理，对于 hθ(x)=g(θTX)<0.50.5 ，有 θTX<00 。

现在我们就来看看决策边界(Decision boundary)的具体内容，假如我们有如图所示的样本集合：

同时假设， 假设函数(hypothesis function)为 hθ(x)=g(θ0+θ1x1+θ2x2) )，并假设 θ0=−3,θ1=θ2=11 。所以此时有：

z = - 3 + x 1 + x 2

根据前面的内容，我们知道若要 y=11，就必须使得 z≥00 ，在这里即使得：

- 3 + x 1 + x 2 \geq0 0

其等价于：

x 1 + x 2 \geq3 3

。我们将直线 x1+x2=33 的图像添加到上面的样本分布图中可以得到如下图像：
这里写图片描述

根据高中就学过的线性规划知识，为与直线右上方的点都能满足不等式 −3+x1+x2≥00 ，即满足 z≥00 。而这条直线就是所谓的 决策边界(Decision boundary)。同时需要指出的是，这条直线只跟参数 θ θ 有关，跟样本集无关。

再来看看非线性的情况，样本集如下：

若假设函数为 hθ(x)=g(θ0+θ1x1+θ2x2+θ3x21+θ4x22) )，假设

θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ - 1 0011 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

则若要 hθ(x)≥0.50.5（或者说要是得 y=11），就必须使得：

- 1 + x 21 + x 22 \geq0 0

即：

x 21 + x 22 \geq1 1

若把曲线 x21+x22=11 的图像添加到上面的样本集中，可以得到如下图像：
这里写图片描述

所以图中这条紫色的线也就是函数 hθ(x)=g(θ0+θ1x1+θ2x2+θ3x21+θ4x22) )的 决策边界(Decision boundary)。如果我们的假设函数更加复杂，其决策边界的形状会更加的奇怪，并且不仅只限于二维、三维，也可以是一条高维的曲线，只是我们无法用图形表示出来。接下来讨论误差函数。

逻辑回归模型(Logistic Regression Model)

i.误差函数(Cost Function)

同线性回归一样，我们需要一个误差函数来帮助我们选择最佳的参数 θ

。假设有 m 组训练集 {(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}}

，其中

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 . . . x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, x 0 = 1, y \in {0, 1}}

，我们有假设函数：

h θ (x) = 1 1 + e - θ T X

那么到底怎么得到最优的 θ 呢？首先要做的就是更改 误差函数的形式。

在线性回归中，误差函数为：

J (θ 0, θ 1, . . ., θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

将求和前面的 12 放到求和部分里面得到：

J (θ 0, θ 1, . . ., θ n) = 1 m \sum i = 1 m 1 2 (h θ (x (i)) - y (i)) 2

在这里，我们换一种形式来表示函数来代替 12(hθ(x(i))−y(i))2 ：

C o s t (h θ (x (i)), y (i)) = 1 2 (h θ (x (i)) - y (i)) 2

, 如果把上标 i 去掉，得到：

C o s t (h θ (x), y) = 1 2 (h θ (x) - y) 2

然而非常不幸的是，如果我们将假设函数 hθ(x)=11+e−θTX 代入函数 Cost(hθ(x),y)) ，再将函数 Cost(hθ(x),y)) 代入误差函数 J(θ)) )，所得到的误差函数并不是一个凹函数或者凸函数，意思是函数 J(θ) 将会有局部最优点(local optima)，所以不能对误差函数执行梯度下降法：
这里写图片描述

而我们需要的误差函数应该是这样的：
这里写图片描述

为了能够使用梯度下降发求得最佳 θ ，我们将误差函数做一些改变。这里，我们引入新的误差函数：

C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) if y = 1; if y = 0 .

为什么要把上面这个分段函数作为误差函数呢？我们可以看出，当 y=11 的时候，其图像为：
这里写图片描述

从图中可以看出，在训练的过程中，如果样本的输出 y=11 ，预测值 hθ(x)) 也为1 1，那么其误差 Cost=00 。而当样本的输出 y=11 ，预测值 hθ(x) 为 0 时，那么其误差 Cost=∞ ，所以这是一个比较好的误差函数模型。
而当 y=0 的时候，其图像为：
这里写图片描述

跟上面同理，如果样本的输出 y=0 ，预测值 hθ(x) 为 1，那么其误差 Cost=∞ 。而当样本的输出 y=0 ，预测值 hθ(x) 也为 0 时，那么其误差 Cost=0 。而且我们可以看到，这个误差函数是没有局部最优值的，所以我们可以在这个误差函数上执行梯度下降法。

ii.简化的误差函数和梯度下降(Simplified Cost Function and Gradient Descent)

简化的误差函数(Simplified Cost Function)

之前我们提到误差函数：

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x (i)), y (i))

C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) if y = 1; if y = 0 .

注意：其中 y 总是为 1 或 0 。，但是上面这个形式不利于我们进行一些计算，比如求偏导。所以我们把函数 Cost(hθ(x),y) 改写为：

C o s t (h θ (x), y) = - y l o g (h θ (x)) - (1 - y) l o g (1 - h θ (x))

由上面这个式子可知：

所以我们可以将误差函数改写为：

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x (i)), y (i)) = - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

这个形式的误差函数就便于我们进行梯度下降了。

梯度下降(Gradient descent)

跟线性回归如出一辙，在逻辑回归中，我们也需要用梯度下降来求解 θ

。和线性回归一样，梯度下降的形式如下：

R e p e a t {θ j : = θ j - α \partial \partial θ j J (θ)}

和线性回归相同，我们通过对 θj 求偏导直到收敛：

R e p e a t {θ j : = θ j - α m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j}

其中 ∑mi=1hθ(x(i)) 可以向量化为 g(Xθ) ， ∑mi=1y(i) 可以向量化为 y⃗ ， ∑mi=1x(i)j 可以向量化为 XT ，所以将上面这个式子向量化后得到：

θ : = θ - α m X T (g (X θ) - y ⃗)

其中

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (2) 0 x (3) 0 . . . x (m) 0 x (1) 1 x (2) 1 x (3) 1 . . . x (m) 1 x (1) 2 x (2) 2 x (3) 2 . . . x (m) 2 . . . . . . . . . . . . . . . x (1) n x (2) n x (3) n . . . x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

所以

X T = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 0 x (1) 1 x (1) 2 . . . x (1) n x (2) 0 x (2) 1 x (2) 2 . . . x (2) n x (3) 0 x (3) 1 x (3) 2 . . . x (3) n . . . . . . . . . . . . . . . x (m) 0 x (m) 1 x (m) 2 . . . x (m) n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

另外需要注意 (g(Xθ)−y⃗ ) 是一个 m 维的列向量，上式的正确性是可以肯定的。

也许有人会问，前面的误差函数一大堆嵌套，为什么求偏导还是等于 αm∑mi=1(hθ(x(i))−y(i))x(i)j

，下面就来求一求(高能预警，计算量巨大)。

1.为了方便后面的计算，我们先求函数 g(z)=11+e−z

的导数：

g(x)′=(11+e−x)′=−(1+e−x)′(1+e−x)2=−1′−(e−x)′(1+e−x)2=0−(−x)′(e−x)(1+e−x)2=−(−1)(e−x)(1+e−x)2=e−x(1+e−x)2=(11+e−x)(e−x1+e−x)=g(x)(+1−1+e−x1+e−x)=g(x)(1+e−x1+e−x−11+e−x)=g(x)(1−g(x))

好了，然后再来求 J(θ)

的偏导：

\partial \partial θ j J (θ) = \partial \partial θ j - 1 m \sum i = 1 m [y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] = - 1 m \sum i = 1 m [y (i) \partial \partial θ j l o g (h θ (x (i))) + (1 - y (i)) \partial \partial θ j l o g (1 - h θ (x (i)))] = - 1 m \sum i = 1 m ⎡ ⎣ y ( i ) \partial \partial θ j h θ ( x ( i ) ) h θ ( x ( i ) ) + ( 1 - y ( i ) ) \partial \partial θ j ( 1 - h θ ( x ( i ) ) ) 1 - h θ ( x ( i ) ) ⎤ ⎦ = - 1 m \sum i = 1 m ⎡ ⎣ y ( i ) \partial \partial θ j σ ( θ T x ( i ) ) h θ ( x ( i ) ) + ( 1 - y ( i ) ) \partial \partial θ j ( 1 - σ ( θ T x ( i ) ) ) 1 - h θ ( x ( i ) ) ⎤ ⎦ = - 1 m \sum i = 1 m ⎡ ⎣ y ( i ) σ ( θ T x ( i ) ) ( 1 - σ ( θ T x ( i ) ) ) \partial \partial θ j θ T x ( i ) h θ ( x ( i ) ) + - ( 1 - y ( i ) ) σ ( θ T x ( i ) ) ( 1 - σ ( θ T x ( i ) ) ) \partial \partial θ j θ T x ( i ) 1 - h θ ( x ( i ) ) ⎤ ⎦ = - 1 m \sum i = 1 m ⎡ ⎣ y ( i ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) \partial \partial θ j θ T x ( i ) h θ ( x ( i ) ) - ( 1 - y ( i ) ) h θ ( x ( i ) ) ( 1 - h θ ( x ( i ) ) ) \partial \partial θ j θ T x ( i ) 1 - h θ ( x ( i ) ) ⎤ ⎦ = - 1 m \sum i = 1 m [y (i) (1 - h θ (x (i))) x (i) j - (1 - y (i)) h θ (x (i)) x (i) j] = - 1 m \sum i = 1 m [y (i) (1 - h θ (x (i))) - (1 - y (i)) h θ (x (i))] x (i) j = - 1 m \sum i = 1 m [y (i) - y (i) h θ (x (i)) - h θ (x (i)) + y (i) h θ (x (i))] x (i) j = - 1 m \sum i = 1 m [y (i) - h θ (x (i))] x (i) j = 1 m \sum i = 1 m [h θ (x (i)) - y (i)] x (i) j

所以说，不要怀疑，偏导数的确是这么多。误差函数就讲到这里。

iii.高级优化法(Advanced Optimization)

留个位置在这里，以后再写

多输出类型分类法(Multiclass Classification)

前面讲得都是输出为两类的情况，下面来讲讲多类（大于2）的分类问题。多类分类其实很简单，我们先来看几个生活中的例子：

问题	需要的分类
Email foldering	Work、Friends、Family、Hobby
Medical diagrams	Not ill、Cold、Flu
Weather	Sunny、Cloudy、Rain、Snow

上面三个例子都是我们可能遇到的分类问题，那么对于这种问题，该如何处理呢？
假设我们有如下的样本集：

我们一般采用一种叫 One-VS-All 的方法，即将一种类型看作一类，其它类型看作另一类：
这里写图片描述

所以，我们可以单独给每一个类都训练一个分类器(Classifier)，即可达到多类分类的目的。

qqr1110

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
coursera斯坦福大学机器学习笔记（4）：逻辑回归（Logic Regression）分类（classification）

面对一些类似回归问题，我们可以通过线性回归方法来拟合一个函数，以此来预测数据，但它的输出是连续的。有时候呢，我们需要一种方法给出一个判定结果，例如”同意(agree)”、”不同意(disagree)”。、下面呢就是关于这个方法的新内容，叫做分类(Classification)问题。又例如，如果我们需要预测一辆汽车是好的还是坏的，只有两种结果：好、坏。这种输出为0或者1的问题，就叫做分类问题，而我们...
复制链接

扫一扫