逻辑回归模型是应用较为广泛的一个模型,其可以看做是在线性回归的基础上,对结果又加了 S i g m o i d Sigmoid Sigmoid函数,然后通过设定的分类阈值,来解决二分类问题(即如果结果大于或小于分类阈值)。
一、Sigmoid函数
基本信息
其函数表达式为: y ( x ) = 1 1 + e − x y(x)=\frac{1}{1+e^{-x}} y(x)=1+e−x1
其图像如下:
特点
通过图像我们可以看出,Sigmoid函数具有以下几个特点:
- 是个单调函数,保证了输出的一致性,线性函数计算出的值越大,对应的Sigmoid函数值越大
- 随着x的值越大或越小Sigmoid的函数值趋于平稳,造成梯度消失
- 函数具有很好的对称性,以 ( 0 , 1 2 ) (0,\frac{1}{2}) (0,21)为对称中心
- 其导数 f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f^{'}(x)=f(x)(1-f(x)) f′(x)=f(x)(1−f(x)),两个大于0小于1的数相乘会导致越来越小,很容易造成梯度消失
二、逻辑回归函数
基本函数
逻辑回归虽然叫做“回归”,但实际上做的是二分类任务,其基本表达式如下:
Y ^ = S i g m o i d ( θ T X ) = 1 1 + e − θ T X \begin{aligned}\hat Y&=Sigmoid(\theta^TX)\\&=\frac{1}{1+e^{-\theta^TX}}\end{aligned} Y^=Sigmoid(θTX)=1+e−θTX1
极大似然估计
逻辑回归本质上也属于一种广义线性模型,其是在假设样本服从伯努利分布的前提下进行的(即所有样本都是独立同分布的,其可能的结果只有0或1两种)。
如果我们把单个样本看成一个事件,那么这个事件发生的概率就是 P ( y ∣ x ) = { p , y = 1 1 − p , y = 0 P(y|x)=\left\{ \begin{array}{rcl} p, & & {y=1}\\ 1-p, & & {y=0} \end{array} \right. P(y∣x)={
p,1−p,y=1y=0
分段函数不方便计算,那我们可以对其进行统一,变成: P ( y i ∣ x i ) = p y i ( 1 − p ) 1 − y i P(y_i|x_i)=p^{y_i}(1-p)^{1-y_i} P(yi∣xi)=pyi(1−p)1−yi
当 y i = 1 y_i=1 yi=1时, P = p P=p P=p;当 y i = 0 y_i=0 yi=0时, P = ( 1 − p ) P=(1-p) P=(1−p)
利用极大似然估计,假设我们的样本有 n n n个数据,由于不同的样本之间是独立同分布的,那么其合事件的总概率将每一个样本发生的概率相乘即可:
P 总 = P ( y 1 ∣ x 1 ) P ( y 2 ∣ x 2 ) . . . P ( y n ∣ x n ) = ∏ i = 1 n p y i ( 1 − p ) 1 − y i \begin{aligned}P_总&=P(y_1|x_1)P(y_2|x_2)...P(y_n|x_n)\\&=\prod\limits_{i=1}^np^{y_i}(1-p)^{1-y_i}\end{aligned} P总=P(y1∣x1)P(y2∣x2)...P(yn