0. 前言
损失函数一般表示为 L ( f , f ( x ) ) L(f,f(x)) L(f,f(x)),用以衡量真实值 y y y和预测值 f ( x ) f(x) f(x)之间不一致的程度。在回归为重,一般
1. logit模型
1.1. Odds
Odds和概率都用来描述某件事情发生的可能性,区别在于概率描述的是事件A出现的次数与所有可能的结果出现的次数之比,Odds描述的是事件A发生的概率与事件A不发生的概率之比。显然,概率的区间是 [ 0 , 1 ] [0,1] [0,1],Odds的区间是 [ 0 , + ∞ ] [0,+\infty] [0,+∞]
1.2. logit模型
logit可以理解成log-it(即it的自然对数,这里的it指的就是Odds)。logit变换是从概率
P
→
O
d
d
s
→
L
o
g
i
t
P\rightarrow Odds\rightarrow Logit
P→Odds→Logit的一个变换,数学形式为
l
n
(
P
i
1
−
P
i
)
ln\left(\frac{P_i}{1-P_i}\right)
ln(1−PiPi)。取对数是为了防止数值太大或太小,并且可以让取值由
[
0
,
+
∞
]
[0,+\infty]
[0,+∞]映射到
[
−
∞
,
+
∞
]
[-\infty,+\infty]
[−∞,+∞]。
为什么要用logit模型对概率建模呢?如果要对一个变量建模,最简单的就是线性回归模型,例如:
Y
=
β
0
+
β
X
,
Y
∈
[
−
∞
,
+
∞
]
Y=\beta _0+\beta X,Y \in [-\infty,+\infty]
Y=β0+βX,Y∈[−∞,+∞]。但是概率是
[
0
,
1
]
[0,1]
[0,1]的,无法直接用线性回归来对概率建模。如果用logit模型对概率进行一个变换,则可以用线性模型来表示概率了。
(1-1)
l
n
(
P
i
1
−
P
i
)
=
β
0
+
β
1
x
1
+
β
2
x
2
+
⋯
+
β
n
x
n
ln\left(\frac{P_i}{1-P_i}\right)=\beta _0+\beta _1x_1+\beta _2 x_2+\cdots+\beta _n x_n \tag{1-1}
ln(1−PiPi)=β0+β1x1+β2x2+⋯+βnxn(1-1)
由上式可以得到概率
P
i
P_i
Pi的表达式:
(1-2)
P
i
=
1
1
+
e
−
(
β
0
+
β
1
x
1
+
β
2
x
2
+
⋯
+
β
n
x
n
)
P_i=\frac{1}{1+e^{-(\beta _0+\beta _1x_1+\beta _2 x_2+\cdots+\beta _n x_n)}} \tag{1-2}
Pi=1+e−(β0+β1x1+β2x2+⋯+βnxn)1(1-2)
这也是为什么机器学习/深度学习里面喜欢用sigmoid模型来对概率建模的原因。