[机器学习算法详解]逻辑斯蒂回归模型
一、问题背景
逻辑斯蒂回归模型是一种分类模型,其目的解决分类问题而非回归问题。logistic回归是一个判别模型,直接学习后验概率分布,其学习算法可以理解为极大似然估计法。模型分类算法通过定义一个分离超平面来分割不同类别的数据,用sigmoid函数作为后验概率分布函数来对输入数据进行分类。模型的学习算法通过对样本进行极大似然估计获得似然函数,通过梯度下降法求解似然函数中的参数,也就是分离超平面的参数。接下来对算法进行详细介绍,主要解答以下问题。
- 为什么使用sigmoid函数
- 怎样进行极大似然估计
- 学习算法的收敛性分析
- 与其他模型进行对比
二、算法详解
1. 分类函数
分离超平面 wx+b 有很多性质,其中很重要的一点是,分离超平面一侧的点带入超平面计算使得函数值大于0,另一侧的点带入计算函数值小于0,这个信息很容易用来进行分类,可以使用一种称为阶跃函数作为直接的分类器进行分类。阶跃函数 f(x)=1 if x≤0;f(x)=0 if x<0 。这样 f(wx+b) 可以直接用来作为分类器,但是困难在于这个函数不可微,因此在学习这个分类器时就无法使用求偏导数的方法,导致梯度下降法等求极值的方法都无法使用,因此我们需要更换一个函数,但同时也希望这个函数在自变量大于0时和自变量小于0时函数值有很大的不同,因此想到了使用sigmoid函数 σ(x)=11+e−x ,这个函数的图像很美。
这个函数具有这些性质使得函数经常被使用到机器学习的分类模型中。
- 自变量很小的时候函数值几乎为0,自变量很大的时候函数值几乎为1。这个性质和分离超平面配合进行分类。
- 函数可导并且导数很容易求解 σ′(x)=σ(x)(1−σ(x)) (求导过程不写了)
使用这个函数可以很容易的进行分类,当分离超平面求解出来之后,使用 σ(wx+b) 这个函数作为分类器,将分离超平面计算后大于0的样本作为正例1,小于0为负例0。对于二分类问题,视标签变量满足伯努利分布(两点分布),分类器如下定义。