Sigmoid推导和理解
前言
说道逻辑回归就会想到 Sigmoid 函数, 它是一个实数域到 ( 0 , 1 ) (0, 1) (0,1) 的映射, 可以被解释为概率, 但为什么是这个公式?
Sigmoid 和损失函数无关
首先, 逻辑回归的损失函数为
L ( X , Y , θ ) = − ∑ i = 1 n y ( i ) l o g ( y ^ ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − y ^ ( i ) ) L(X,Y,\theta) = -\sum_{i=1}^ny^{(i)}log(\hat y^{(i)}) + (1-y^{(i)})log(1-\hat y^{(i)}) L(X,Y,θ)=−∑i=1ny(i)log(y^(i))+(1−y(i))log(1−y^(i))
其中 y ^ ( i ) = s i g m o i d ( θ T x ) \hat y^{(i)} = sigmoid(\theta^T x) y^(i)=sigmoid(θTx)
这个公式是怎么来的, 我们来推导一下:
设一个概率模型 P ( Y = 1 ∣ X = x ) = f ( x , θ ) P(Y=1|X=x)= f(x, \theta) P(Y=1∣X=x)=f(x,θ), 简写为 P ( y ∣ x ) P(y|x) P(y∣x)
那么对于给定的训练集 X = { x ( 1 ) , x ( 2 ) , . . . , x ( n ) } X=\{x^{(1)},x^{(2)},...,x^{(n)}\} X={ x(1),x(2),...,x(n)} 和 Y = { y ( 1 ) , y ( 2 ) , . . . , y ( n ) } Y=\{y^{(1)},y^{(2)},...,y^{(n)}\} Y={ y(1),y(2),...,y(n)}, 对该模型的参数 θ \theta θ 进行 极大似然估计, 得到
θ ^ = a r g m a x θ ∏