逻辑回归原理

最新推荐文章于 2024-04-02 11:15:57 发布

cyoutetsu

最新推荐文章于 2024-04-02 11:15:57 发布

阅读量1k

点赞数

分类专栏：机器学习分类模型文章标签：机器学习

本文链接：https://blog.csdn.net/cyoutetsu/article/details/77507790

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

分类模型

4 篇文章 0 订阅

订阅专栏

逻辑回归

之前在线性回归的章节中，我们了解了线性回归的原理就是把点落在一条直线上，而在逻辑回归的部分则是希望能够把点落在一条曲线上，这是广义的线性回归，然后我们再用一个阈值来将那些点分开而达到分类的效果。

而在最大熵原理的指导下，我们知道了那条曲线应该是一个什么样子的。

LR和最大熵模型

首先，回顾我们之前推导出的最大熵模型为： $\frac{exp\left( \sum\limits_{i=1}^nw_if_i(x,y) \right)}{\sum\limits_y\ exp\left( \sum\limits_{i=1}^nw_if_i(x,y) \right)}$

在二分类的逻辑回归模型中，y的取值假定有两种 ${y_0,y_1}$ ，那么对应到特征函数 $f_i(x,y)$ 上，我们可以设定： $f(x,y)=\begin{cases}h(x),\ \ y=y_1\\0,\ \ y=y_0\end{cases}$ ，也就是说，我们定义特征函数只有在 $y=y_1$ 的时候抽取特征。

当 $y=y_1$ 时：

$P(y_1|x)=\frac{exp\left( \sum\limits_{i=1}^nw_if_i(x,y_1) \right)}{exp\left( \sum\limits_{i=1}^nw_if_i(x,y_1) \right)+exp\left( \sum\limits_{i=1}^nw_if_i(x,y_0) \right)}$

$P(y_1|x)=\frac{exp\left(w\ h(x) \right)}{exp\left(w\ h(x) \right)+exp\left(w\ 0 \right)}$

$P(y_1|x)=\frac{exp\left(w\ h(x) \right)}{exp\left(w\ h(x) \right)+1}$

当 $y=y_0$ 时：

$P(y_0|x)=\frac{exp\left( \sum\limits_{i=1}^nw_if_i(x,y_0) \right)}{exp\left( \sum\limits_{i=1}^nw_if_i(x,y_1) \right)+exp\left( \sum\limits_{i=1}^nw_if_i(x,y_0) \right)}$

$P(y_0|x)=\frac{exp\left(w\ 0 \right)}{exp\left(w\ h(x) \right)+exp\left(w\ 0 \right)}$

$P(y_0|x)=\frac{1}{exp\left(w\ h(x) \right)+1}$

综合起来：

$P(y_0|x)=1-P(y_1|x)$

具体结合二分类的逻辑回归模型来说，在LR中，条件概率由P(Y|X)表示，X的取值范围是所有实数，而Y的取值范围只有两个，这里为了数学上的计算方便一点，把这两个定位1和0，也就是说在上面的式子中，令 $y_1=1,y_0=0$ ，此时LR的条件概率分布为：

$\begin{cases} P(Y=1|X)=\frac{exp(h(x))}{1+exp(h(x))}\ P(Y=0|X)=\frac{1}{1+exp(h(x))} \end{cases}$

LR和对数几率

我们既然知道了LR的条件概率分布，也就知道了对于一个给定的x，可以求出被分类成1和0的概率值，通过将x分类到概率值比较大的那一类就可以完成对于x的分类过程。

一件事件的几率(odds)是指该事件发生的概率与不发生的概率的比值。也就是说，如果一个事件发生的概率是p，那么不发生的概率自然是1-p，那么它的几率就是 $\frac{p}{1-p}$ ，如果将几率对数化：logit(p)=log(p/1-p)

在LR中，如果只关注y=1的概率时，输出y=1的对数几率就是输入x的线性函数：

$log\frac{P(Y=1|X)}{1-P(Y=1|X)} = wx$

LR的参数估计

根据上面的推导，可以设： $\begin{cases} P(Y=1|X)=h(x)\ P(Y=0|X)=1-h(x) \end{cases}$

我们可以用极大似然估计来求解模型的参数

*之前在最大熵模型的章节中就证明过

似然函数为： $\prod\limits_{i=1}^N \left[h(x_i)^{y_i}\right] \left[1-h(x_i)^{1-y_i}\right]$

对数化后为：

$\sum\limits_{i=1}^N \left[y_ilog\ h(x_i) +(1-y_i)log(1-h(x_i)) \right]$

$\rightarrow$

$\sum\limits_{i=1}^N \left[y_ilog\frac{h(x_i)}{1-h(x_i)}+log(1-h(x_i)) \right]$

$\rightarrow$

$\sum\limits_{i=1}^N \left[y_i(wx_i)+log(1+exp(wx_i)) \right]$

然后用梯度下降或者牛顿法来继续求解。

cyoutetsu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归原理

逻辑回归之前在线性回归的章节中，我们了解了线性回归的原理就是把点落在一条直线上，而在逻辑回归的部分则是希望能够把点落在一条曲线上，这是广义的线性回归，然后我们再用一个阈值来将那些点分开而达到分类的效果。而在最大熵原理的指导下，我们知道了那条曲线应该是一个什么样子的。LR和最大熵模型首先，回顾我们之前推导出的最大熵模型为：exp(∑i=1nwifi(x,y))∑y exp(∑i=1nw
复制链接

扫一扫

专栏目录