本文主要介绍监督学习的线性回归算法。
前导知识:其中m表示数据集的个数,x表示输入值或者是事物的特征或属性,y表示输出值或者预期值。(x,y)表示一个训练样本。如果想要表示具体的训练样本需要加上上标。
监督学习算法工作流程:将一些数据集交给学习算法,学习算法将给出一个函数(h),通过该函数可以通过输入值预测输出值。在线性回归中函数h为一元函数
怎样判断函数h与实际数据的拟合度?这里引入了代价函数J,代价函数J是关于0与1的函数,即方差再除以1/2.函数J值的大小反映了假设函数h的拟合度,代价函数J越小,则拟合度越高。
为了更好理解代价函数J,我们不妨设0为0,此时预测函数h为过原点的直线,而代价函数J仅关于1,根据不同的1的值我们可以得到如下如所示的代价函数J的图像,我们的目标就是求出J的最低点
当我们理解了一个参数时的代价函数J,我们再来看一下两个参数的函数J,此时预测函数h为,根据不同的1与2我们可以得到代价函数J,如下图所示。
将代价函数J转化为等高线的形式可能好理解一些,每个椭圆代表了相同的代价函数的值,横轴为0,纵轴为1,不同的0与1可能对应相同的代价函数值,我们的目标就是找到该图的最低点。在实际中,预测函数h的系数不止两个可能会有多个,所以代价函数J有时候很难做到可视化。