为什么不用线性回归解决分类问题
笔记一如既往的来自吴恩达的视频
举个例子就明白了
经典的肿瘤问题:
假设肿瘤良性恶性只与肿瘤的大小尺寸有关,那么,这就是一个简单的分类问题,如图
如果我们使用线性回归解决问题的话,我们可以得到一个方程,y=θx+b,拟合出来的曲线如下:
可以看到,我们拟合的很好,取分割的地方,就是图中小箭头标注的地方,你可能会认为这不就是用线性回归解决的吗?拟合的挺不错啊,其实这十分具有偶然性,例如,在这个训练集上,我再加一个数据
最右面的那个点就是我们新加的数据,有一个患者的肿瘤非常大也是灰常合理的吧,那么,问题出现了,新的训练集得到的线性回归方程使什么样的呢?如图
很明显是图中蓝色的线条,那么我们再取y=0.5来分类的话,很明显可以看到上面的数据分类错误了,你不能换一个训练集就换一个判断的条件,所以,我们一般不用线性回归来解决分类问题。