逻辑回归与线性回归同属监督学习的范畴,前者输出离散预测值而后者输出连续预测值,所以前者通常应用于分类问题。
需要强调,线性回归通常并不适合解决分类问题。因为拟合结果受单一样本点尤其是极端样本点的影响过大,所以训练出来的线性函数往往很难适配训练集。故而对于分类问题我们才设计出了有别于线性回归的新算法,逻辑回归算法。
逻辑回归本质上就是在线性回归的基础上增加了一层非线性运算,从而把对数据的线性拟合转变为了非线性拟合,进而通过人为地附加判别阈值,完成对连续运算结果的离散化。
施加在线性回归上的非线性函数即被称为逻辑回归所采用的激活函数,常用的有sigmoid函数,RELU函数和双曲正切函数。三者的差别主要体现在用于训练模型的梯度下降的过程中,sigmoid函数和双曲正切函数是业界早期的通用方案,目前则普遍采用RELU函数。
通过以上激活函数对训练集所拟合出来的非线性函数,它的物理意义其实是在计算正确分类的概率。逻辑回归本质上是一个概率问题,这是很多人没有意识到的。
以sigmoid函数拟合二元分类问题为例,该激活函数将实数域折合至0~1的范围,而凡是使预测输出大于0.5的样本点,皆被分作正类且正确的概率超过50%,反之同理不再赘述。