为什么Logistic regression的代价函数如此？

最新推荐文章于 2022-08-16 16:30:07 发布

IT_Vitamin

最新推荐文章于 2022-08-16 16:30:07 发布

阅读量3.4k

点赞数

分类专栏： machine-learning 文章标签： machine-learning

本文链接：https://blog.csdn.net/IT_Vitamin/article/details/45625143

版权

machine-learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

linear regression & logistic regression

-linear regression的代价函数
$J(\theta)=\frac1m \sum_{i=0}^m \frac 12\left(h_\theta(x)-y^{(i)}\right)^2\tag{1}$
可以简化为：
$cost(h_\theta(x),y)=\frac12(h_\theta(x)-y)^2\tag{1'}$
-logistic regression的代价函数
$J(\theta)=-\frac1{2m}\sum_{i=0}^my^{(i)}log\left(h_{\theta}(x^{(i)})\right)+(1-y^{(i)})log\left(1-h_{\theta}(x^{(i)}\right)\tag{2}$

为何在此处不采用线性回归较直观的代价函数形式(1)，而是采用了看似复杂的(2)?
在Andrew NG的描述中，由于

h (θ) (x) = 1 1 + e - θ T x (3)

$h_{(\theta)}(x)=\frac1{1+e^{-\theta^{T}x}}\tag{3}$
线性回归的cost function由于是“convert”（“凸“）函数，局部最小值就是全局最小值,如下图：
linear

而cost Function如果采用之前线性回归最小平方错误为代价函数的方式，cost function会变成非“凸“函数(non-convex)，将有很多局部最小值干扰，如下图：
logistic

在其他博客中看到了另一种解释- “最大似然估计”，也很不错：
最大似然的思想使已有的数据发生的概率最大化，

p(y|x;θ)=hθ(x)y(1−hθ(x)(1−y)) $p(y|x;\theta)={h_\theta(x)}^y{(1-h_\theta(x)}^{(1-y)})$ y=1 or 0
最大似然概率的表述：

L (θ | x; y) = \prod i = 1 m p (y (i) | x (i); θ) = \prod i = 1 m h θ (x) y (i) (1 - h θ (x)) 1 - y (i)

$L(\theta|x;y)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^mh_{\theta}(x)^{y^{(i)}}{(1-h_{\theta}(x))}^{1-y{(i)}}$
将其转换为对数似然函数形式载乘以常数1/(2m)便是（2）的形式.

PS:统计学习中常用的损失函数有以下几种：

(1) 0-1损失函数(0-1 loss function):
L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
(2) 平方损失函数(quadratic loss function)
L(Y,f(X))=(Y−f(X))2
(3) 绝对损失函数(absolute loss function)
L(Y,f(X))=|Y−f(X)|
(4) 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)
L(Y,P(Y|X))=−logP(Y|X)

这里写图片描述