在logistics回归中,我们采用sigmoid函数作为激励函数,所以它被称为sigmoid回归或是对数几率回归。但是,需要注意的是,虽然它的名字中带有回归两个字,但是它并不是一个回归算法,而是一种分类算法。它的优点是,它是直接对分类的可能性进行建模的,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题,因为它是针对于分类的可能性进行建模的,所以它不仅能预测出类别,还可以得到属于该类别的概率。
一:logistics回归模型
logistics回归是针对线性可分问题的一种易于实现而且性能优异的分类模型,是使用最为广泛的分类模型之一。
假设某件事发生的概率为p,那么这件事不发生的概率为(1-p),我们称p/(1-p)为这件事情发生的几率。取这件事情发生几率的对数,定义为logit(p),所以logit(p)为
二:二项logistics回归
二项logistics回归是一种分类模型,由条件概率分布P(Y|X)表示。这里随机变量X取值为实数,随机变量Y取值为1或0.
二项logistics回归模型是如下的条件概率分布;
其中,x是输入(实数),Y 是0或1,w称为权值向量,b称为偏置。w*x为w和x的内积。
对于给定的输入x,按照上面的两个式子可以求出两个条件概率分布。logistics回归比较两个条件概率值的大小,将实例x分到概率值大的那一类。
有时为了方便,将权值和输入向量加以扩充,将偏置b扩充到权值向量w中,然后将输入向量x扩充一个1,如下:
所以logistics回归模型可以如下:
对logistics回归而言,结合上面给的Logit(p)的公式来看:
所以,在logistics回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说:输出Y=1的对数几率是由输入x的线性函数表示的模型,logistics模型。
这里,w*x的值越接近正(负)无穷大,概率值就越接近1(0).
三、多项logistics回归
上面介绍的是二项分类模型,用于二类分类,那么延伸到更多类呢?
假设离散型随机变量Y的取值集合是{1,2,3,......,K},那么多项logistics回归模型是