本次学习内容为cs229第三节
欠拟合与过拟合
输入的特征由我们自行进行选择,并且对学习算法有着较大的影响。
在有n组训练样本的情况下,最多可以得到一个n-1次多项式。从完美拟合所有训练数据的意义上说,这个模型效果很好,但是并不具有实际意义。
选用多项式的次数过低称为欠拟合,过高称为过拟合。
欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。过拟合是指某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差。
参数学习算法是依靠固定的参数集合进行数据拟合的算法。
非参数学习算法它是一个参数数量不固定的算法,参数的数目随着训练集合的数目增加而线性增长。
局部加权回归
局部加权回归使得我们不用太关注特征的选择。
在局部加权回归算法中,但要求x对应的y值时,我们只会比较x周围的一些数据,对这些数据子集进行线性回归并拟合出一条直线。
当x(i)越接近x,则权重w就会越大;当x(i)越远离x,权重w就会越接近0。即给距离近的点赋予较大权重,给距离远的值赋予较小权重,距离越远对式子的贡献就越小。
这里的权重的计算使用的方法不固定。
局部加权回归并不能完全避免欠拟合和过拟合的问题。
如果数据集很巨大,使用这个算法的消耗也将是非常大的。因为每次求值都需要对数据集进行一次拟合。
误差项捕获了未建模的效应,也有可能是随机的噪声。
我们假设误差项服从某个概率分布,比如正态分布。
换句话说在给定特征与参数后,要求的y是一个服从高斯分布的随机函数。
定义出theta的似然性。似然性表示的是数据的概率。
极大似然估计原则是解决的就是这样的问题,要选择theta使得数据出现的可能尽可能大。为了数学上的便利,定义对数似然函数。
这等同于之前求的成本函数。
分类
对应x,y只能取0或1两个值,这就是二元分类,只需要作一条直线将它们区分。
如果已经作出一条直线进行拟合,只需要将y=0.5处的x作为区分点。
接下来我们需要定义似然函数与对数似然函数,我们需要找到theta使得对数似然性最大。
在这里可以使用梯度上升的方法不断更新theta的值,从而使得似然函数最大。
对函数以theta求偏导,得到结果化简后为: