深入理解logistic回归

最新推荐文章于 2022-05-11 20:40:39 发布

baidu-liuming

最新推荐文章于 2022-05-11 20:40:39 发布

阅读量1k

点赞数 2

分类专栏：机器学习机器学习文章标签：逻辑回归 sigmoid函数极大似然估计代价函数梯度下降

本文链接：https://blog.csdn.net/fisherming/article/details/79641772

版权

机器学习同时被 2 个专栏收录

40 篇文章 3 订阅

订阅专栏

机器学习

30 篇文章 8 订阅

订阅专栏

本文目录如下：

逻辑回归

- 逻辑回归
- 1.逻辑回归

1.逻辑回归

1.1 逻辑回归概念

逻辑回归函数用来表示实例x属于类别1的概率，用sigmoid函数表示:

h (z) = 1 1 + e - z (1)

$h(z)=\frac{1}{1+e^{-z}}\tag{1}$
其图形是一条S形曲线

sigmoid函数

由函数图可以看出，函数

y=h(x) y = h ( x ) $y=h(x)$ 在

x=0 x = 0 $x=0$ 时候的取值为

12 1 2 $\frac{1}{2}$ ，随着

x x $x$ 的不断减小，函数值趋向于0；

x

$x$ 不断变大的同时，函数值趋向于1。
所以，我们定义线性回归的预测函数为

y=θTx y = θ T x $y=\theta^Tx$ ，那么逻辑回归的输出为

y=h(θTx) y = h ( θ T x ) $y=h(\theta^Tx)$

1.2 判定边界

通过观察sigmoid函数，我们可以发现：
当 $h(x)\geq0.5$ 时， $x\geq0$ ;对于 $h(\theta^Tx)\geq0.5$ 时，则 $\theta^Tx\geq0$ ，此时预估 $y=1$ ；
反之，当预测 $y=0$ 时， $\theta^Tx<0$ ;
所以，我们认为 $\theta^Tx=0$ 是一个判定边界，当它大于0或小于0时，逻辑回归模型分别预测为不同的类别。
先看第一个例子 $g(\theta^Tx)=g(\theta_0 + \theta_1·x_1 + \theta_2·x_2)$ ，其中 $\theta_0$ 、 $\theta_1$ 和 $\theta_2$ 分别取-3, 1, 1。则当 $-3+x_1+x_2\geq0$ 时， $y=1$ ；则 $x_1+x_2=3$ 是一个决策边界，图形表示如下：

理论上说，只要我们的

θTx θ T x $\theta^Tx$ 设计的足够复杂，我们就能在不同的情景下，拟合出不同的判定边界，从而把不同的样本点分隔开来。

1.3 二项逻辑回归

二项逻辑回归模型是一个分类模型，由条件概率分布 $P(Y|X)$ 表示。

P (Y = 1 | x) = 1 1 + e - ( θ T \cdot x + b ) P (Y = 0 | x) = 1 - P (Y = 1 | x) (2) (3)

$\begin{align} P(Y = 1|x) = \frac{1}{1 + e^{-(\theta^T·x + b)}} \tag{2}\\ P(Y = 0|x) = 1-P(Y = 1|x) \tag{3}\\ \end{align}$
逻辑回归比较上述两个条件概率值的大小，将实例

x x $x$ 分到概率值比较大的那一类。
有时为了方便，将权值向量

θ

$\theta$ 和输入向量

x x $x$ 加以扩充，记作

θ

$\theta$ ，

x x $x$ ，即

θ = (θ^{(1)}, θ^{(2)}, . . ., θ^{(n)}, b)^{T}

$\theta=(\theta^{(1)},\theta^{(2)}, ... , \theta^{(n)}, b)^T$ ，

x=(x(1),x(2),...,x(n),1)T x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) , 1 ) T $x=(x^{(1)}, x^{(2)}, ... , x^{(n)}, 1)^T$ 。这时，逻辑回归模型如下：

P (Y = 1 | x) = 1 1 + e - θ T \cdot x P (Y = 0 | x) = 1 - P (Y = 1 | x) (4) (5)

$\begin{align} &P(Y=1|x)=\frac{1}{1+e^{-\theta^T·x}} \tag{4}\\ &P(Y=0|x)=1-P(Y=1|x) \tag{5}\\ \end{align}$

1.4 逻辑回归的求解

要想求得给定实例 $x$ 属于类别1的概率，参数 $\theta$ 是未知的。
此时需要估计参数 $\theta$ 的值，符合“模型已知，参数未知”的情景。所以，采用极大似然估计。
若采用极大似然估计方法来估计参数，就需要给出似然函数。因此转换为如何表达极大似然函数。

1.5 极大似然函数

1.5.1 极大似然估计的特点

极大似然估计所有采样的样本都是独立同分布的
极大似然估计是在模型已定，参数未知的情况下，估计模型中的具体参数
极大似然估计核心是：产生所采样的样本出现的概率最大。即利用已知的样本信息，反推最大可能使样本集出现当前结果的模型参数

1.5.2 求解极大似然函数的步骤：

(1): 写出似然函数；似然函数值的大小意味着这组样本值出现的可能性的大小，是个概率值。
(2): 对似然函数取ln对数，并整理化简；ln对数函数单调递增
(3): 求导数，令导数为0，得到似然方程；
(4): 解似然方程，得到的参数即为所求

1.5.3 极大似然估计求解实例：

假设当前样本存在这样的分布， $\{(x_1,y_1=1),(x_2,y_2=0),(x_3,y_3=1),(x_4,y_4=0),(x_5,y_5=0)\}$ ，样本是满足独立同分布的。
模型为 $P(Y=1|x)=\frac{1}{1+e^{-\theta^T·x}}$ ，表示样本 $x$ 在该模型预测为1的概率，满足“模型已定，参数未知”的原则
由于样本是独立同分布的，则可得以下公式：
$L (θ) = P (Y = 1 | x = x_{1}) P (Y = 0 | x = x_{2}) P (Y = 1 | x = x_{3}) P (Y = 0 | x = x_{4}) P (Y = 0 | x = x_{5})$ $L(\theta)=P(Y=1|x=x_1)P(Y=0|x=x_2)P(Y=1|x=x_3)P(Y=0|x=x_4)P(Y=0|x=x_5)$
极大似然函数就是求 $L(\theta)$ 最大时的参数 $\theta$
假设 $P(Y=1|x)=h_\theta(x), P(Y=0|x)=1-h_\theta(x)$ ，则上式可以化为：
$L (θ) = \prod i = 1 m [h θ (x i)] y i \cdot [1 - h θ (x i)] (1 - y i) (7)$ $L(\theta)=\prod_{i=1}^m[h_\theta(x_i)]^{y_i}·[1-h_\theta(x_i)]^{(1-y_i)}\tag{7}$
其中 $m=5$ ，以上即为逻辑回归的似然函数，似然函数的大小代表了这种样本组合可能出现的概率大小。
将公式(7)取ln对数可得：
$l (θ) = l n (L (θ)) = \sum i = 1 m [y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i))] (8)$ $l(\theta)=ln(L(\theta)) = \sum_{i=1}^{m}[y_ilogh_\theta(x_i) + (1-y_i)log(1-h_\theta(x_i))]\tag{8}$
对上式中的 $l(\theta)$ 求极大值，得到 $\theta$ 的估计值。这样问题就转换为：以对数似然函数为目标函数的最优化问题。
逻辑回归求解参数时的目标函数就是对数似然函数(公式8)

1.6 代价函数和损失函数

代价函数(cost function)可以用对数似然函数公式(8)表示，代价函数和损失函数表示为：

$C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) i f y = 1 i f y = 0$ $Cost(h_\theta(x), y )=\begin{cases} -log(h_\theta(x)) & if \ y=1\\ -log(1-h_\theta(x)) & if \ y=0 \end{cases}$

$J (θ) = = 1 m \sum i = 1 N C o s t (h θ (x i), y i) - 1 m \sum i = 1 N [y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i))] (9) (10)$ $\begin{eqnarray} J(\theta) &=&\frac{1}{m}\sum_{i=1}^{N}Cost(h_\theta(x_i), y_i) \tag{9}\\ &=&-\frac{1}{m}\sum_{i=1}^{N}[y_ilogh_\theta(x_i) + (1 - y_i)log(1-h_\theta(x_i))] \tag{10} \end{eqnarray}$
可以得出损失函数：
$J (θ) = - 1 m l (θ)$ $J(\theta)=-\frac{1}{m}l(\theta)$
问题转换为求解使得损失函数最小时，参数 $\theta$ 的值。通常采用梯度下降法和拟牛顿法。为了求解简单，在应用梯度下降求解之前，首先介绍对数几率。

1.7 几率和对数几率

几率(odds)：指该事件发生的概率和不发生的概率比值
如果一个事件发生的概率为P，那么该事件的几率是 $\frac{P}{1-P}$
对数几率(log odds)：如果一个事件发生的概率为P，那么该事件对数几率(log odds)或logit函数是：
$l o g i t (P) = l o g p 1 - p$ $logit(P)=log\frac{p}{1-p}$
对logistic回归而言，由公式(4)和(5)得：
$l o g P ( Y = 1 | x ) 1 - P ( Y = 1 | x ) = θ T \cdot x (11)$ $log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\theta^T\cdot x\tag{11}$
即：线性模型=逻辑回归模型在 $Y=1$ 上的对数几率。

1.8 梯度下降

由第1.6得到的将 $Y=1$ 的对数几率: $log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\theta^T\cdot x$ 和 $P(Y=0|x)=1-h_\theta(x)=\frac{1}{1+e^{-\theta^T·x}}$ 代入损失函数 $J(\theta)$ ：

$J (θ) = - 1 m \sum i = 1 N [y i l o g h θ (x i) + (1 - y i) l o g (1 - h θ (x i))]$ $J(\theta) =-\frac{1}{m}\sum_{i=1}^{N}[y_ilogh_\theta(x_i) + (1 - y_i)log(1-h_\theta(x_i))]$ $= - 1 m \sum i = 1 N [y i l o g h θ ( x i ) 1 - h θ ( x i ) + l o g (1 - h θ (x i))]$ $=-\frac{1}{m}\sum_{i=1}^{N}[y_ilog\frac{h_\theta(x_i)}{1-h_\theta(x_i)} + log(1-h_\theta(x_i))]$ $= - 1 m \sum i = 1 N [y i (θ T x i) - l o g (1 + e θ T x i)]$ $=-\frac{1}{m}\sum_{i=1}^{N}[y_i(\theta^Tx_i) - log(1+e^{\theta^Tx_i})]$
梯度函数：
$\partial J ( θ ) \partial θ = - 1 m \sum i = 1 m [y i x i - 1 1 + e θ x i e θ x i x i]$ $\frac{\partial J(\theta)}{\partial\theta}=-\frac{1}{m}\sum_{i=1}^{m}[y_ix_i-\frac{1}{1+e^{\theta x_i}}e^{\theta x_i}x_i]$ $= - 1 m \sum i = 1 m (y i - h θ (x i)) x i$ $=-\frac{1}{m}\sum_{i=1}^{m}(y_i-h_\theta (x_i))x_i$ $= 1 m \sum i = 1 m (h θ (x i) - y i) x i$ $=\frac{1}{m}\sum_{i=1}^{m}(h_\theta (x_i)-y_i)x_i$
梯度迭代：
Repeat:
$θ j : = θ j - a \partial J ( θ ) \partial θ$ $\theta_j:=\theta_j - a\frac{\partial J(\theta)}{\partial\theta}$
最终找到极小值，从而确定 $\theta^T$

1.9 逻辑回顾的优缺点

优点：
(1) 预测结果是介于0和1之间的概率
(2) 同时适用于连续型和类别型自变量
(3) 容易使用和解释

缺点：
(1) 逻辑回归对模型中自变量多重共线性比较敏感。因为逻辑回归求解参数的时候，运用了极大似然函数，极大似然函数要求自变量是独立同分布的。加入两个高度相关的自变量放入Logistic模型，可能导致较弱的自变量预测错误。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性。
(2) 预测结果呈”s”型，中间概率变化很大，很敏感；两端概率变化很小，导致很多变量的变化对目标概率没有区分度。
参考：
http://blog.csdn.net/yingfengfeixiang/article/details/79631638：深入理解逻辑回归
http://blog.csdn.net/zjuPeco/article/details/77165974：逻辑回归(logistic regression)的本质——极大似然估计
http://blog.csdn.net/han_xiaoyang/article/details/49123419：器学习系列(1)_逻辑回归初步
http://blog.csdn.net/zhangxueyang1/article/details/54176359：逻辑回归优缺点

baidu-liuming

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
深入理解logistic回归

本文目录如下：逻辑回归逻辑回归1.逻辑回归1.1 逻辑回归概念1.2 判定边界1.3 二项逻辑回归1.4 逻辑回归的求解1.5 极大似然函数1.5.1 极大似然估计的特点1.5.2 求解极大似然函数的步骤：1.5.3 极大似然估计求解实例：1.6 代价函数和损失函数1.7 几率和对数几率1.8 梯度下降1.9 逻辑回顾的优缺点...
复制链接

扫一扫