一、Logistic regression (逻辑回归)简述
Logistic regression (逻辑回归)是当前业界应用最为广泛的分类模型之一,虽然这个算法从名字上来看,是回归算法,但其实际上是一个分类算法,也是非常经典的二分类算法。
在逻辑回归中,假设我们的样本是{x, y},y是0或者1,表示正类或者负类,x是我们的m维的样本特征向量。那么这个样本x属于正类,也就是y=1的“概率”可以通过下面的逻辑函数来表示:
:
自变量取值为任意实数,值域[0,1]
从它的函数表达式可以看出就是在线性回归的基础上加了一个sigmoid函数。将其输出空间映射到0-1上面来。 然后映射后的这个值就代表他被分为类别1的概率,如果结果越接近0或者1,说明分类结果的可信度越高。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说让大家信服。当然了,把大值压缩到这个范围还有个很好的好处,就是可以消除特别变量的影响。而实现这个伟大的功能其实就只需要平凡一举,也就是在输出加一个logistic函数。另外,对于二分类来说,可以简单的认为:如果样本x属于正类的概率大于0.5,那么就判定它是正类,否则就是负类。