逻辑回归(logistic regression)是统计学习中的经典分类方法。逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。
逻辑斯蒂分布
设 X X 是连续随机变量,
服从逻辑斯蒂分布是指 X X 具有下列分布函数与密度函数:
f(x)=F′(x)=e−(x−u)γγ(1+e−(x−u)γ)2 f ( x ) = F ′ ( x ) = e − ( x − u ) γ γ ( 1 + e − ( x − u ) γ ) 2
逻辑斯蒂分布的密度函数
逻辑斯蒂分布的分布函数
特别注意逻辑斯蒂分布的概率分布函数自中心附近增长速度较快,而在两端的增长速度相对较慢。形状参数ss的数值越小,则概率分布函数在中心附近增长越快。
当μ=0,s=1μ=0,s=1 时,逻辑斯蒂分布的概率分布函数就是我们常说的sigmoid函数:
f(α)=11+e−α f ( α ) = 1 1 + e − α
且其导数为:
df(α)d(α)=α(1−α) d f ( α ) d ( α ) = α ( 1 − α )
这是一个非常好的特性,并且这个特性在后面的推导中将会被用到。
sigmoid函数优点:
输出范围优先,数据在传递的过程中不容易发散。
输出范围为(0,1),所以可以用作输出层,输出表示概率,抑制两头,对中间细微变化敏感,对分类有利。
是任意阶可导的凸函数,有很好的数学性质。
逻辑斯蒂回归为什么要用sigmoid函数:
逻辑回归是广义线性回归的一个特例, y=g−1(ω.x+b) y = g − 1 ( ω . x + b ) ,其中函数 g(.) g ( . ) 成为联系函数。逻辑斯蒂函数是一个单调可微,罗辑回归人为函数分布服从伯努利分布,将其写成指数形式就是sigmoid函数。
二项逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布 P(Y|X)