目录
一、回归与分类
回归与分类是机器学习的基本问题。回归是预测连续值,分类是预测离散值;回归的输出可以是任意值,而分类的输出只能是预设的分类输出的一个,比如(0,1)中的0或1.;理论上讲,如果回归的输入值相近,那么它的预测值也是相近的,而分类的输入相近(在同一个分类决策边界内),那么它们的预测值是一样的,代表属于同一类别。
举个例子:
预测明天的气温是回归问题,因为预测值可以是正常温度中的任意一个值,是连续的。
预测明天的天气是分类问题,它的预测值是阴、晴、雨等等,是离散的。
二、 线性回归的直观解释
通俗来讲,线性回归就是找一条直线f(x)=kx+b(在二维平面),将所有给定样本(x,y)穿过,并且在同一个x下,使所有点的总误差f(x)-y的平方最小,即预测值f(x)与真实值y之间的欧氏距离之和最小。在高维空间内,则是找一个超平面,同样使上述值最小。
例如,对于给定的数据:
x = [1 2 3 4 5 6 7 8 9 10] y = [1 3 3 3 5 6 7 8 10 10]
上图中, 绿色线代表matlab拟合的误差,黑线代表另一条自己画的拟合直线的误差。
matlab进行的直线拟合(细线)显然要比我自己花的效果好,因为其误差值(所有绿色直线的长度和)相比之下要小得多。
三位平面的示意图如下(盗用吴恩达老师机器学习课程的图)