逻辑回归引入
逻辑回归的引入:监督学习中我们遇到的不仅有回归问题,还有分类问题,对于回归问题常用线性回归做假设预测,那对于分类问题是否也能采用线性回归呢?如下例
图中8个数据,根据肿瘤大小来判断肿瘤是良性还是恶性的,对这8个数据做线性回归分类,更好地进行分类,引用阈值(假设函数如图中所示),当假设函数大于等于0.5时,称肿瘤恶性,即y=1表示;记纵轴等于0.5时对应肿瘤大小的值P,从横轴看,当Size大于P时,靠右边的四个数据都大于0.5,可以归为y=1,当Size小于P时,靠左边的数据都小于0.5,可以归为y=0;貌似线性回归也能很正确的分类,但当横轴拉长,新添入一个数据如下:
对于新加入的这个数据,采用蓝色线做线性回归,明显这个数据归为y=0,但通过图能清楚看到把这个数据归为y=1更为合适。
而且用线性回归去分类数据时,可能会出现数据全部大于0或者数据全部大于1的情况。所以我们考虑引入逻辑回归。
对于回归问题,因为y的值的不确定的,所以采用线性回归去预测会得到很好的效果。但是对于分类问题,比如2分类,我们明确知道。y的值要么0要么1,所以对于假设函数来说,取大于1或小于0的值是没有意义的,所以我们想找这样一个函数,它的值域在0,1之间。我们在数学上找到这样一个函数,我们称之为Sigmoid函数,公式及图像如下
sigmoid函数
我们做如下变换:
为了便于数据分类,我们将假设函数的输出如下:
函数过(0,0.5),以0.5为界,我们有:
进一步地:
线性分界面
再介绍俩个分界面的例子:
线性分界面:
非线性分界面: