Logistic 回归的三个视角（极大似然估计/熵/形式化损失函数）

最新推荐文章于 2024-08-30 17:03:25 发布

Leo_Xu06

最新推荐文章于 2024-08-30 17:03:25 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习深度学习

本文链接：https://blog.csdn.net/leo_xu06/article/details/78972260

版权

14 篇文章 2 订阅

订阅专栏

12 篇文章 2 订阅

订阅专栏

Logistic的基本形式：

需要明确的概念：

假设 $x, \, y \sim B(\pm1,p)$

考虑一个二分类问题： $f(x)\rightarrow \left \{ +1, -1\right\}$ ：

其极大化条件似然估计：

转化成负对数似然损失函数：

L o s s (w) = 1 N \sum i = 1 N l n (1 + e x p (- y i f (x i, w))) （ 损 失 函 数 A ）

$Loss(w) =\frac{1}{N}\sum_{i=1}^{N}ln(1+exp(-y_{i}f(x_{i},w))) \qquad （损失函数A）$
需要明确的概念 ：

与逻辑回归对应的是伯努利分布，而不是二项分布（重复N次(N>1)伯努利分布实验）
逻辑回归中，模型的二值输出服从伯努利分布，而输入数据不服从伯努利分布，输入数据服从等方差高斯分布
模型的输出中，线性内积 $W^{T}x$ 所得结果是连续型随机变量，不服从伯努利分布，而经过非线性变换和二值化之后的输出才服从伯努利分布

注：红线是logistic回归损失函数，绿虚线是SVM损失函数

M a r g i n C o s t : m i n J (w) = 1 n \sum i = 1 n H (y i f (x i, w)), w h e r e H (t) = l n (1 + e x p (- t))

$Margin Cost: \\ min J(w)=\frac{1}{n}\sum_{i=1}^{n}H(y_{i}f(x_{i},w)), \qquad \\ where \, H(t)=ln(1+exp(-t))$

交叉熵函数：

L (y | x) = \sum - P (y i) l n P (f (x i = y i))

$L(y|x)=\sum-P(y_{i})lnP(f(x_{i}=y_{i}))$
相关熵与逻辑回归：

假设 $x,\, y \sim B(0,1|p)$

考虑一个二分类问题 $f(x) \rightarrow\left \{0,1 \right\},$ (与极大似然视角下的+1，-1不同)

似然： $\prod_{i=1}^{N}P(y|x_{i},w)=\prod_{i=1}^{N}P(1|x_{i},w)^{y_{i}}P(0|x_{i},w)^{1-y_{i}}$

交叉熵损失函数（cross-entropy）：

E (w) = - 1 N l n (\prod i = 1 N P (y | x i, w)) = - 1 N \sum i = 1 N [y i l n (P (1 | x i, w)) + (1 - y i) l n (P (0 | x i, w))] （ 损 失 函 数 B ）

$E(w)=-\frac{1}{N}ln(\prod_{i=1}^{N}P(y|x_{i},w))=-\frac{1}{N}\sum_{i=1}^{N}[y_{i}ln(P(1|x_{i},w))+(1-y_{i})ln(P(0|x_{i},w))] （损失函数B）$

因为极大似然视角下的二分类标签为 $y^{*}$ （+1，-1），而熵视角下的二分类标签为 $y$ （1，0），这导致其最终的损失函数（损失函数A和损失函数B）的形式不一样，但其最优解是一样的。下面介绍单个实例下两个损失函数如何转换：