本文重点:
在分类问题中,你要预测的变量 y 是离散的值,我们将学习一种叫做逻辑回归的机器学习分类算法。在分类问题中,我们尝试预测的是:样本是否属于某一个类(例如是或者否)。
分类问题的例子
判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;还有之前我们也谈到了肿瘤分类问题的例子,区别一个肿瘤是恶性的还是良性的,这些都是常见的分类问题。
二分类
二分类是常见的分类问题,我们将因变量y可能属于的两个类分别称为负向类和正向类,则因变量y∈{0,1},其中 0 表示负向类,1 表示正向类。
那么我们怎样才能解决分类问题呢?我们前面学习了线性回归算法,我们来看一下线性回归算法是否可以解决这个分类的问题呢?
线性回归解决分类问题
我们可以看出这个数据集分为两类(y=1,y=0),如果要是使用线性回归算法来进行分类的话,我们可以使用线性回归的方法来使用一条直线来拟合这些数据
我们可以看出分类的效果挺好的,我们可以看到这条直线确实将不同类别的样本分开了,但是如果我们在增加一个样本呢?