小闹钟的机器学习笔记（3）

最新推荐文章于 2024-05-22 16:02:00 发布

江米江米

最新推荐文章于 2024-05-22 16:02:00 发布

阅读量190

点赞数

分类专栏：机器学习笔记文章标签：机器学习加权回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_39502869/article/details/81355293

版权

机器学习笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

本次学习内容为cs229第三节

欠拟合与过拟合

输入的特征由我们自行进行选择，并且对学习算法有着较大的影响。
在有n组训练样本的情况下，最多可以得到一个n-1次多项式。从完美拟合所有训练数据的意义上说，这个模型效果很好，但是并不具有实际意义。
选用多项式的次数过低称为欠拟合，过高称为过拟合。

欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。过拟合是指某个模型过度的学习训练数据中的细节和噪音，以至于模型在新的数据上表现很差。

参数学习算法是依靠固定的参数集合进行数据拟合的算法。
非参数学习算法它是一个参数数量不固定的算法，参数的数目随着训练集合的数目增加而线性增长。

局部加权回归

局部加权回归使得我们不用太关注特征的选择。
在局部加权回归算法中，但要求x对应的y值时，我们只会比较x周围的一些数据，对这些数据子集进行线性回归并拟合出一条直线。

这里写图片描述

当x(i)越接近x，则权重w就会越大；当x(i)越远离x，权重w就会越接近0。即给距离近的点赋予较大权重，给距离远的值赋予较小权重，距离越远对式子的贡献就越小。
这里的权重的计算使用的方法不固定。
局部加权回归并不能完全避免欠拟合和过拟合的问题。
如果数据集很巨大，使用这个算法的消耗也将是非常大的。因为每次求值都需要对数据集进行一次拟合。

误差项捕获了未建模的效应，也有可能是随机的噪声。
我们假设误差项服从某个概率分布，比如正态分布。

这里写图片描述

换句话说在给定特征与参数后，要求的y是一个服从高斯分布的随机函数。
定义出theta的似然性。似然性表示的是数据的概率。

这里写图片描述

极大似然估计原则是解决的就是这样的问题，要选择theta使得数据出现的可能尽可能大。为了数学上的便利，定义对数似然函数。

这里写图片描述

这等同于之前求的成本函数。

分类

对应x，y只能取0或1两个值，这就是二元分类，只需要作一条直线将它们区分。
如果已经作出一条直线进行拟合，只需要将y=0.5处的x作为区分点。

这里写图片描述

接下来我们需要定义似然函数与对数似然函数，我们需要找到theta使得对数似然性最大。

这里写图片描述

在这里可以使用梯度上升的方法不断更新theta的值，从而使得似然函数最大。

这里写图片描述

对函数以theta求偏导，得到结果化简后为：

这里写图片描述

这里写图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
小闹钟的机器学习笔记（3）

本次学习内容为css299第三节欠拟合与过拟合输入的特征由我们自行进行选择，并且对学习算法有着较大的影响。在有n组训练样本的情况下，最多可以得到一个n-1次多项式。从完美拟合所有训练数据的意义上说，这个模型效果很好，但是并不具有实际意义。选用多项式的次数过低称为欠拟合，过高称为过拟合。欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。