机器学习 (六): Sigmoid 公式推导和理解

本文详细探讨了Sigmoid函数在逻辑回归中的作用和意义,从极大似然估计的角度推导了逻辑回归的损失函数,并介绍了Sigmoid函数的假设,即两类特征值服从均值不同、方差相同的正态分布。通过推导,揭示了Sigmoid如何从概率分布假设中导出,进一步阐述了Sigmoid函数作为概率模型的本质。
摘要由CSDN通过智能技术生成

前言

说道逻辑回归就会想到 Sigmoid 函数, 它是一个实数域到 ( 0 , 1 ) (0, 1) (0,1) 的映射, 可以被解释为概率, 但为什么是这个公式?

Sigmoid 和损失函数无关

首先, 逻辑回归的损失函数为

L ( X , Y , θ ) = − ∑ i = 1 n y ( i ) l o g ( y ^ ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − y ^ ( i ) ) L(X,Y,\theta) = -\sum_{i=1}^ny^{(i)}log(\hat y^{(i)}) + (1-y^{(i)})log(1-\hat y^{(i)}) L(X,Y,θ)=i=1ny(i)log(y^(i))+(1y(i))log(1y^(i))

其中 y ^ ( i ) = s i g m o i d ( θ T x ) \hat y^{(i)} = sigmoid(\theta^T x) y^(i)=sigmoid(θTx)

这个公式是怎么来的, 我们来推导一下:

设一个概率模型 P ( Y = 1 ∣ X = x ) = f ( x , θ ) P(Y=1|X=x)= f(x, \theta) P(Y=1X=x)=f(x,θ), 简写为 P ( y ∣ x ) P(y|x) P(yx)

那么对于给定的训练集 X = { x ( 1 ) , x ( 2 ) , . . . , x ( n ) } X=\{x^{(1)},x^{(2)},...,x^{(n)}\} X={ x(1),x(2),...,x(n)} Y = { y ( 1 ) , y ( 2 ) , . . . , y ( n ) } Y=\{y^{(1)},y^{(2)},...,y^{(n)}\} Y={ y(1),y(2),...,y(n)}, 对该模型的参数 θ \theta θ 进行 极大似然估计, 得到

θ ^ = a r g m a x θ ∏

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值