线性回归并不是解决分类问题的好办法
由上面的结论,我们将学习逻辑回归(logistic regression)(当今最流行和最广泛的学习算法之一)。
示例
分类算法的应用
二元分类:预测的变量y只能是两个值之一。
一种常用的技术是调用假类或零类、负类和真类。例如对于垃圾邮件的分类,可以将不是垃圾邮件的电子邮件称为反例,因为问题是输出垃圾邮件。相反含垃圾邮件的电子邮件可能被称为正训练示例,因为垃圾邮件的答案是肯定的或真实的,或是明确的、消极的和积极的。不一定意味着消极对坏。
如何构建分类算法
以分类肿瘤是否为恶性的训练集为例
问题是线性回归不仅预测0和1,还有介于0和1的值,但是我们只需要0和1。
对于这个问题,我们可以设置一个阈值
大于0.5是0,小于0.5是0.
目前看起来线性回归勉强能用,但是出现以下情况呢?
这时,函数会这样子
决策边界向右边移动