小闹钟的机器学习笔记(3)

本次学习内容为cs229第三节

欠拟合与过拟合

输入的特征由我们自行进行选择,并且对学习算法有着较大的影响。
在有n组训练样本的情况下,最多可以得到一个n-1次多项式。从完美拟合所有训练数据的意义上说,这个模型效果很好,但是并不具有实际意义。
选用多项式的次数过低称为欠拟合,过高称为过拟合。

欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。过拟合是指某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差。

参数学习算法是依靠固定的参数集合进行数据拟合的算法。
非参数学习算法它是一个参数数量不固定的算法,参数的数目随着训练集合的数目增加而线性增长。

局部加权回归

局部加权回归使得我们不用太关注特征的选择。
在局部加权回归算法中,但要求x对应的y值时,我们只会比较x周围的一些数据,对这些数据子集进行线性回归并拟合出一条直线。

这里写图片描述

当x(i)越接近x,则权重w就会越大;当x(i)越远离x,权重w就会越接近0。即给距离近的点赋予较大权重,给距离远的值赋予较小权重,距离越远对式子的贡献就越小。
这里的权重的计算使用的方法不固定。
局部加权回归并不能完全避免欠拟合和过拟合的问题。
如果数据集很巨大,使用这个算法的消耗也将是非常大的。因为每次求值都需要对数据集进行一次拟合。

误差项捕获了未建模的效应,也有可能是随机的噪声。
我们假设误差项服从某个概率分布,比如正态分布。

这里写图片描述

换句话说在给定特征与参数后,要求的y是一个服从高斯分布的随机函数。
定义出theta的似然性。似然性表示的是数据的概率。

这里写图片描述

极大似然估计原则是解决的就是这样的问题,要选择theta使得数据出现的可能尽可能大。为了数学上的便利,定义对数似然函数。

这里写图片描述

这等同于之前求的成本函数。

分类

对应x,y只能取0或1两个值,这就是二元分类,只需要作一条直线将它们区分。
如果已经作出一条直线进行拟合,只需要将y=0.5处的x作为区分点。

这里写图片描述

接下来我们需要定义似然函数与对数似然函数,我们需要找到theta使得对数似然性最大。

这里写图片描述

在这里可以使用梯度上升的方法不断更新theta的值,从而使得似然函数最大。

这里写图片描述

对函数以theta求偏导,得到结果化简后为:

这里写图片描述

这里写图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值