概述
- 逻辑斯蒂回归实质是对数几率回归(广义的线性回归),是用来解决分类问题的。
- 其中sigmoid用来解决二分类问题,softmax解决多分类问题,sigmoid是softmax的特殊情况。
- 数学建模直接针对分类可能性建模。
- 参数学习可用极大似然估计或贝叶斯估计,利用极大似然估计求得的目标函数与交叉熵损失一致。
- 梯度下降之sigmoid和softmax函数的求导。
一、基本的数学概念和推导
1. logistic函数(也叫logistic分布函数)
- logistic函数形如“S”,具体公式如下:
f(x)=L1+e−k(x−x0) f ( x ) = L 1 + e − k ( x − x 0 )
其中: x0 x 0 代表中点, L L 代表函数的最大值, 代表曲线的陡度。 - 标准的logistic函数(即sigmoid函数), x0=0,k=1,L=1 x 0 = 0 , k = 1 , L = 1 ,即:
f(x)=11+e−x f ( x ) = 1 1 + e − x
2.sigmoid函数
概念
sigmoid是logistic函数的特例,如上所述, x0=0,k=1,L=1 x 0 = 0 , k = 1 , L = 1 时,logistic函数就退化为sigmoid函数。
f(x)=11+e−x f ( x ) = 1 1 + e − x考察sigmoid函数的性质
- 关于(0,0.5)中心对称
- 值域: f(x)∈ f ( x ) ∈ [0,1]
- 梯度饱和: x→∞,f(x)→0 x → ∞ , f ( x ) → 0
- 简单变形:
f(x)=11+e−x=ex1+exex1+ex=1−e−x1+e−x→f(x)=1−f(−x) f ( x ) = 1 1 + e − x = e x 1 + e x e x 1 + e x = 1 − e − x 1 + e − x → f ( x ) = 1 − f ( − x ) - 导数
f′(x)=f(x)×(1−f(x))∈[0,14] f ′ ( x ) = f ( x ) × ( 1 − f ( x ) ) ∈ [ 0 , 1 4 ] ,梯度饱和的原因。推导如下:
f′(x)=(11+e−x)′=e−x(1+e−x)2=e−x1+e−x×11+e−x=11+ex×ex1+ex(变形一)=f(x)×(1−f(x)) f ′ ( x ) = ( 1 1 + e − x ) ′ = e − x ( 1 + e − x ) 2 = e − x 1 + e − x × 1 1 + e − x = 1 1 + e x × e x 1 + e x ( 变 形 一 ) = f ( x ) × ( 1 − f ( x ) )
- 应用
- 神经网络中的激活函数
- 分类问题:二项逻辑回归(sigmoid回归)
3.softmax函数
- 基本概念
softmax也被称为指数规范函数,是logistic函数的泛化。通过把一个k维空间的向量 z z 的值(具有任意性)压缩到另一个k维空间的向量 ,它的每一个值都在(0,1)并且所有值的和为1(具有天然的概率分布的特性),数学表示如下:
σ:RK→{ z∈RK|zi≥0,∑i=1Kzi=1}σ(zj)=ezj∑k=1Kezk,j=1,2,...,K σ : R K → { z ∈ R K | z i ≥ 0 , ∑ i = 1 K z i = 1 } σ ( z j ) = e z j ∑ k = 1 K e z k , j = 1 , 2 , . . . , K
矩阵形式:
σ(z)=⎡⎣⎢⎢⎢⎢σ(z1)σ(z2)...σ(zK)⎤⎦⎥⎥⎥⎥=1∑Kk=1ezk⎡⎣⎢⎢⎢⎢e