逻辑回归（logistic regression）的原理及损失函数推导

最新推荐文章于 2022-05-31 17:36:10 发布

循环是人递归是神

最新推荐文章于 2022-05-31 17:36:10 发布

阅读量2.9k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_35752161/article/details/89391058

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

贝叶斯部分参考：https://blog.csdn.net/zengxiantao1994/article/details/72787849，感谢大佬

考虑二分类任务，标记输出y 属于{0，1}，而线性回归模型产生的预测值 $z=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ 是实际值。于是，我们需将实值 $z$ 转换成0/1值。

Sigmoid函数可以很好的实现这一目标：

$y=\frac{1}{1+e^{-\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)}}$

通过对数的方法，可转换为：

$\ln \frac{y}{1-y}=w^{T} x+b$

若将y视为样本x的正例的可能性，则1 - y 是其反例可能性，两者的比值为：

$\frac{y}{1-y}$

这一比值可以称为“几率”，反应了x作为正例的相对可能性。对几率取对数可以得到“对数几率”:

$\ln \frac{y}{1-y}$

上式通过线性回归模型预测结果去逼近真实标记的对数的几率，其对应的模型就是我们常说的“逻辑回归”，也叫做“对数几率回归”。如果将上式中y视为类后验概率估计p（y=1 | x），可将上式重写为：

$\ln \frac{p(y=1 | \boldsymbol{x})}{p(y=0 | \boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$

显然有：

$\begin{array}{l}{p(y=1 | x)=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}} \\ {p(y=0 | \boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}}\end{array}$

因此可以通过“极大似然法”来估计w和b。

首先来看贝叶斯分类，我们都知道经典的贝叶斯公式：

其中：p(w)：为先验概率，表示每种类别分布的概率；p（x | w）：类条件概率，表示在某种类别前提下，某事发生的概率；而p（w | x）为后验概率，表示某事发生了，并且它属于某一类别的概率，有了这个后验概率，我们就可以对样本进行分类。后验概率越大，说明某事物属于这个类别的可能性越大，我们越有理由把它归到这个类别下。

但是在实际问题中并不都是这样幸运的，我们能获得的数据可能只有有限数目的样本数据，而先验概率和类条件概率(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时，一种可行的办法是我们需要先对先验概率和类条件概率进行估计，然后再套用贝叶斯分类器。

先验概率的估计较简单，1、每个样本所属的自然状态都是已知的（有监督学习）；2、依靠经验；3、用训练样本中各类出现的频率估计。

类条件概率的估计（非常难），原因包括：概率密度函数包含了一个随机变量的全部信息；样本数据可能不多；特征向量x的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是，把估计完全未知的概率密度转化为估计参数。这里就将概率密度估计问题转化为参数估计问题，极大似然估计就是一种参数估计方法。当然了，概率密度函数的选取很重要，模型正确，在样本区域无穷时，我们会得到较准确的估计值，如果模型都错了，那估计半天的参数，肯定也没啥意义了。

重要前提

上面说到，参数估计问题只是实际问题求解过程中的一种简化方法（由于直接估计类条件概率密度函数很困难）。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。

重要前提：训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid条件)，且有充分的训练样本。

极大似然估计

极大似然估计的原理，用一张图片来说明，如下图所示：

总结起来，最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

原理：极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

给定数据集 $\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{m}$ ，对率回归模型最大化“对数似然”：

$\ell(\boldsymbol{w}, b)=\sum_{i=1}^{m} \ln p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$

即每个样本属于其真实标记的概率越大越好。为了便于讨论，令 $\boldsymbol{\beta}=(\boldsymbol{w} ; b)$ ， $\hat{\boldsymbol{x}}=(\boldsymbol{x} ; 1)$ ，则 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ 可简写为 $\boldsymbol{\beta}^{\mathrm{T}} \hat{\boldsymbol{x}}$ ，再令 $p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})=p(y=1 | \hat{\boldsymbol{x}} ; \boldsymbol{\beta})$ ， $p_{0}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})=p(y=0 | \hat{\boldsymbol{x}} ; \boldsymbol{\beta})=1-p_{1}(\hat{\boldsymbol{x}} ; \boldsymbol{\beta})$ ，则 $p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$ 可重写为：

$p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)=y_{i} p_{1}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)+\left(1-y_{i}\right) p_{0}\left(\hat{\boldsymbol{x}}_{i} ; \boldsymbol{\beta}\right)$ ，

即我们的目标是最大化 $p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$ ，是的，这里的 $p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$ 就是我们逻辑回归损失函数的相反数，等价我们就是要最小化 - $p\left(y_{i} | \boldsymbol{x}_{i} ; \boldsymbol{w}, b\right)$ ，也就是我们的逻辑回归损失函数了。

循环是人递归是神

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归（logistic regression）的原理及损失函数推导

贝叶斯部分参考：https://blog.csdn.net/zengxiantao1994/article/details/72787849，感谢大佬考虑二分类任务，标记输出y 属于{0，1}，而线性回归模型产生的预测值是实际值。于是，我们需将实值转换成0/1值。Sigmoid函数可以很好的实现这一目标： ...
复制链接

扫一扫