一、logistic回归基本思路
logistic回归分析虽然称其回归,但实际主要用于分类问题,且主要为二分类问题(多分类问题可以多次使用logistic二分类进行细分)。
对于回归问题,最简单的方法便是使用多项式进行数据拟合,而对于分类问题来说,由于Y为0或1,所以不能使用普通的回归算法来进行拟合计算,但logistic回归的原理却类似回归问题,只是做了一点改进,首先需要理解决策边界的概念。
二、决策边界
如上图,我们需要区分蓝色的数据与红色的数据,他们分别有age与Tumor Size两个特征,最好的分类就是寻找到如黑线所示的决策边界,是他们能最大概率分类开,而决策边界我们一班采用多项式进行表示,如上图的决策边界可采用
来表示,
所以,我们现在需要确定
三、sigmoid函数
sigmoid函数是一个在(0,1)区间的一个函数,他的图像如下:
可以看到,当自变量趋于无穷时,函数值
所以,我们使
这样就找到一个(2)中所说的"标准"。因此,我们若求得
四、 代价函数
我们可以仿造线性回归的思路构造如下代价函数进行梯度下降法计算:
但是,这样构造的代价函数不是凸函数,梯度下降法解得的最优值可能为局部最优,无法求得最优的参数值,所以我们采用极大似然推导出代价函数,注意,有的文章直接给出了代价函数的结论未做推导容易对读者造成疑惑,以下是推导过程:
(3)中我们有说可以将
上式可写成一般形式:
(关于极大似然的原理,可参照这位大佬的文章:如何通俗地理解概率论中的「极大似然估计法」?),所以,他的极大似然函数为
于是,我们求解出了代价函数,即可用梯度下降法求解出参数
以上就是本人理解的logistic回归分析的分类问题,有什么问题还望指正~
五、文章参考
[1]吴恩达. 机器学习