线性回归,简单的理解,在二维空间中,找到一条直线去尽可能的拟合样本数据,给出新的样本x,可以预测其y值,y是连续值,分类是离散值,如图1所示;如果是高维空间,那就是找到一个超平面去拟合,当然也可以是曲线;为了方便理解,以二维空间的直线为例,所谓找到最好的直线,就是找参数a和b,也就是theta[0],theta[1]。
如何去衡量一条直线是否是最好,在回归问题中一般用预测值与真实值之间的距离来定义损失函数,如图2所示,使损失函数值最小的直线就是最好的直线,注意,损失函数是图中红色线段的平方和,而不是绿色线段,m代表样本的总数量,1/2是为了求导方便,可以与2次项约为1。
图 1线性回归举例