吴恩达机器学习——第7章逻辑回归

最新推荐文章于 2024-04-19 21:23:52 发布

丨马平生丨

最新推荐文章于 2024-04-19 21:23:52 发布

阅读量705

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/u013252773/article/details/89228048

版权

机器学习专栏收录该内容

22 篇文章 1 订阅

订阅专栏

第7章逻辑回归

概述
名词解释
- - 伯努利分布
基本原理
示例
参考

概述

一看到这个驴唇不对马嘴的名字，就忍不住笑，明明是个分类算法，却非要命名为逻辑回归。这是个历史问题，是由于逻辑规则算法中的假设函数而来的，它的假设函数别名为“逻辑函数”。
逻辑回归是用来解决二分类问题的机器学习方法，用来评估某种事物的可能性。

名词解释

伯努利分布

这个名词非常好记：“不努力”。
伯努利分布又称“两点分布”或“0-1分布”，来源于伯努利实验。在做实验的时候，只有两种结果：成功、失败。假设成功的概率为p，则失败的概率就是1-p。
在这里插入图片描述

基本原理

逻辑回归是基于线性回归实现的，在线性回归的基础上增量了一个函数，从而增加了非线性的特性。

假设函数

线性回归的假设函数是 $h_θ(x)=θ^TX$ ，逻辑回归在线性函数的基础上增加函数 $g(z)=\frac{1}{1+e^{-z}}$ ，得出逻辑回归的假设函数是：
$h_θ(x)=g(θ^TX)=\frac{1}{1+e^{-θ^TX}}$

为了方便理解，假设这是一个二分类问题，y的取值只能是0或1。
则 $h_θ(x)$ 就是针对指定x，y=1的概率，使用数学概率表示为： $h_θ(x)=P(y=1|x;θ)$ ，意思是在限定x θ的情况下y=1的概率。
y=0的概率就是 $P (y = 0 ∣ x; θ) = 1 - P (y = 1 ∣ x; θ)$

决策边界

$g (z)$ 函数的效果图如下所示：
在这里插入图片描述
当z趋近于无限大时，函数值无限趋近于1；当z趋近于无穷小时，函数值趋近于0；
当z=0时，函数值为0.5。
作为一个二分类问题，结果只能是0和1两种，所以我们做个假设：

当 $g (z) > = 0.5$ 时，结果y为1.也就是 $z=θ^TX>=0$
当 $g (z) < 0.5$ 时，结果y为0.也就是 $z=θ^TX<0$

基于以上的结论，我们可以对具体的逻辑回归案例进行分析，找出两个分类的临界点即决策边界。

线性的决策边界

假设逻辑回归的假设函数为 $h_θ(x)=g(θ_0+θ_1*x_1+θ_2*x_2)$ ，θ取值是 $\left[\begin{matrix}-3&1&1\end{matrix}\right]$ （参数的拟合过程老师没有给出，此处的目的是为了解释决策边界，而不是参数的拟合），根据上面的推导过程有以下的结论：

当 $z=θ^TX>=0$ 时，y=1，即 $θ_0+θ_1*x_1+θ_2*x_2 >=0$ ，带入θ值，
即 $3+x_1+x_2 >=0$
即 $x_1+x_2 >=3$ 时，y=1
同理当 $z=θ^TX<0$ 时，y=0，即 $x_1+x_2 <3$ 时。

如上图所示，所有的元素以中间紫色的直线为界分为两部分，蓝色为y=0，红色的y=1，紫色的直线就是决策边界。
需要注意的是当θ确定后，决策边界就确定了，它是假设函数的属性，不是训练集的属性。

圆形的决策边界

假设逻辑回归的假设函数为 $h_θ(x)=g(θ_0+θ_1*x_1+θ_2*x_2+θ_3*x_1^2+θ_4*x_2^2)$ ，θ取值是 $\left[\begin{matrix}-1&0&0&1&1\end{matrix}\right]$ ，根据上面的推导过程有以下的结论：

当 $z=θ^TX>=0$ 时，y=1，即 $θ_0+θ_1*x_1+θ_2*x_2+θ_3*x_1^2+θ_4*x_2^2 >=0$ ，带入θ值，
即 $1+x_1^2+x_2^2>=0$
即 $x_1^2+x_2^2 >=1$ 时，y=1
同理当 $z=θ^TX<0$ 时，y=0，即 $x_1^2+x_2^2 <1$ 时。

对应的决策边界是个圆形。

不规则的决策边界

通过调整假设函数，可以得出不同的决策边界。
在这里插入图片描述

代价函数

代价函数是拟合参数的手段，回顾一下线性回归的代价函数为：
$)=\frac{1}{2m}\sum_{i=1}^m(h_θ(x^{(i)})-y^{(i)})^2=\frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_θ(x^{(i)})-y^{(i)})^2$
假设： $cost(h_θ(x^{(i)}), y^{(i)})=\frac{1}{2}(h_θ(x^{(i)})-y^{(i)})^2$
简化一下，去掉i $cost(h_θ(x), y)=\frac{1}{2}(h_θ(x)-y)^2$
因为在逻辑回归中 $h_θ(x)=\frac{1}{1+e^{-θ^TX}}$
则代入到 $J (θ)$ 中后画出的图形如下图所示，有很多局部优化点，这种图形称之为“非凸函数”，不利于进行梯度下降：在这里插入图片描述
下面给出逻辑回归的代价函数：
$cost(h_θ(x), y)= \left\{ \begin{aligned} -log(h_θ(x)) \qquad if \quad y = 1 \\ -log(1 - h_θ(x)) \qquad if \quad y = 0 \\ \end{aligned} \right\}$
该公式等价于：
$cost(h_θ(x), y)= \left\{ \begin{aligned} -y*log(h_θ(x)) -(1-y)log(1 - h_θ(x)) \end{aligned} \right\}$

y=1的情况下，代价函数的图形如下所示，y轴代表代价函数的值，则当 $h_θ(x)$ 趋近于1时代价函数趋近于0，所以可知 $h_θ(x)=1$ 时，y=1的概率最大：
在这里插入图片描述

y=0的情况下，代价函数的图形如下所示，y轴代表代价函数的值，则当 $h_θ(x)$ 趋近于0时代价函数趋近于0，所以可知 $h_θ(x)=0$ 时，y=0的概率最大：
在这里插入图片描述
这与我们的推想是一致的，当预测值与实际值一致时，没有代价：

$h_θ(x)=0$ 时，y=0的概率最大，代价为0；
$h_θ(x)=1$ 时，y=1的概率最大，代价为0；

我们同样可以使用梯度下降法去求θ，梯度下降法可以参考线性回归中的描述。
梯度下降并不是唯一的算法，也可以使用conjugate gradiat、BFGS、L-BFGS算法计算，这些算法更加复杂也更加智能，计算速率也更快。

多类别分类算法

多类别分类问题，可以看成是多个二分类问题，假设现在y的取值范围变成了（1，2，3），可以定义以下3个假设函数：

$h^{(1)}_θ(x)$ ，表示特定θX的情况下，y=1的概率：P(y=1|x;θ)
$h^{(2)}_θ(x)$ ，表示特定θX的情况下，y=2的概率：P(y=2|x;θ)
$h^{(3)}_θ(x)$ ，表示特定θX的情况下，y=3的概率：P(y=3|x;θ)

所以假设函数可以表示为： $h^{(i)}_θ(x)=P(y=i|x;θ)$

所以判断x是什么类别，就是把x分别代入到3个公式中，取h最大的i作为最终的类别。

示例

from sklearn.linear_model import LogisticRegression
import os
import pandas as pd
import numpy as np

# 要预测的结果字段
y_label = ['predclass']
# training_data 训练集，指标字段
x_label = [i for i in training_data.columns if i not in y_label]

lr = LogisticRegression(C=0.01, penalty='l1')

lr.fit(training_data[x_label], training_data[y_label])
# test_data是测试集，在测试集上测试一下效果
score = lr.score(test_data[x_label], test_data['predclass'])
# 速度比近邻要快得多
print("score", score)