***********二项逻辑斯蒂分布******************
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y|X)表示,形式为参数化的逻辑斯蒂分布(关于逻辑斯蒂分布以及概率分布的基础知识请看本文附录)。这里,随机变量X取值为实数,随机变量Y取值为1或0。二项逻辑斯蒂回归模型是如下的条件概率分布:
对于给定的输入实例x,按照上式可以求得P(Y=1|x)和P(Y=0|x)。逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。
现在我们要引入一个叫做“事件的几率”这个概念。一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p/(1-p),该事件的对数几率或logit函数是:logit(p)=log( p/(1-p) ) 。对逻辑斯蒂回归而言,由上面表达式得:
这就是说,在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑斯蒂回归模型。
*********多项逻辑斯蒂回归********
上面说到第二种角度可以轻松扩展到多分类,叫做多项逻辑斯蒂回归模型,我们现在来看一下。假设离散型随机变量Y的取值集合是{1,2,…K},那么多项逻辑斯蒂回归模型是:
*********二项逻辑斯蒂回归模型的参数估计********************
我们使用极大似然估计法来对模型的参数进行估计,公式如下
对于训练数据集,特征数据x={x 1 , x 2 , … , x m }和对应的分类数据y={y 1 , y 2 , … , y m }。构建逻辑回归模型f(θ),最典型的构建方法便是应用极大似然估计。首先,对于单个样本,其后验概率为:
那么,极大似然函数为:
log似然是:
对求出的似然函数,我们要寻找其驻点,这里可以使用梯度下降法,公式为
从而迭代θ至收敛即可: