一、逻辑斯谛分布
logistic分布函数形式:
在该方程式中,x是随机变量,μ是平均值,s是与标准偏差成比例的比例参数。这个方程我们只需要了解,在逻辑回归模型中真正用到的是sigmoid函数:
当上式中的 μ = 0,s = 1时,即为sigmoid函数:
S
(
z
)
=
1
1
+
e
(
−
z
)
S(z) = \frac{1}{1+e^{(-z)}}
S(z)=1+e(−z)1
二、二项逻辑斯谛回归模型
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某事件发生的可能性。可以看到,虽然带有回归二字,但是逻辑回归模型是一种分类模型。
逻辑回归与线性回归有密不可分的关系:
1.逻辑回归与线性回归都是一种广义线性模型。
2.逻辑回归假设因变量 y 服从伯努利分布(二项分布),而线性回归假设因变量 y 服从高斯分布(正态)。
3.如果去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。
上面介绍了sigmod函数:
S
(
z
)
=
1
1
+
e
(
−
z
)
S(z) = \frac{1}{1+e^{(-z)}}
S(z)=1+e(−z)1
其图像为:
sigmoid函数又称s形函数,值域在[0, 1]之间,在距离0比较远的地方函数的值会无限逼近0或者1。这个性质很适用于解决二分类问题。
定义 (逻辑斯谛回归模型): 二项逻辑斯谛回归模型是如下的条件概率分布:
P
(
Y
=
1
∣
x
)
=
h
θ
(
x
)
=
1
1
+
e
−
(
θ
⋅
x
+
b
)
P(Y = 1 | x) = h_θ(x) = \frac{1}{1+e^{-(θ ·x+b)}}
P(Y=1∣x)=hθ(x)=1+e−(θ⋅x+b)1
P
(
Y
=
0
∣
x
)
=
1
−
P
(
Y
=
1
∣
x
)
=
1
1
+
e
(
θ
⋅
x
+
b
)
P(Y = 0 | x) = 1 - P(Y = 1 | x) = \frac{1}{1+e^{(θ ·x+b)}}
P(Y=0∣x)=1−P(Y=1∣x)=1+e(θ⋅x+b)1
这里
x
∈
R
n
x∈R^n
x∈Rn是输入,
Y
∈
0
,
1
Y∈{0,1}
Y∈0,1是输出,
θ
∈
R
n
θ∈R^n
θ∈Rn和
b
∈
R
b∈R
b∈R是参数。θ称为权值向量,b称为偏置,
θ
⋅
x
θ ·x
θ⋅x为
θ
θ
θ 和
x
x
x的内积。
下面看该模型的一个特点:
对逻辑斯谛回归而言,
l
o
g
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
θ
⋅
x
+
b
log\frac{P(Y = 1 | x) }{1-P(Y = 1 | x) } = θ ·x+b
log1−P(Y=1∣x)P(Y=1∣x)=θ⋅x+b
这一步很好推导,把上面定义中的式子代入,根据对数函数的性质就能求得。
这就是说,在逻辑斯谛回归模型中,输出Y =1的对数几率是输入x的线性函数.或者说,输出Y =1的对数几率是由输入x的线性函数表示的模型,即逻辑斯谛回归模型。
三、损失函数
不同于线性回归模型的均方误差损失函数,逻辑回归模型采用交叉熵作为损失函数:
符号说明:
通俗来讲,交叉熵是对“出乎意料”(译者注:原文使用suprise)的度量。当输出是我们期望的值,我们的“出乎意料”程度比较低;当输出不是我们期望的,我们的“出乎意料”程度就比较高。至于交叉熵损失函数的详细解释,请点击这里。
参考资料:
1.《逻辑回归(Logistic Regression)(一)》知乎
2.《统计学习方法》李航