机器学习 (第五章回归分析)

最新推荐文章于 2024-05-21 21:30:26 发布

komjay

最新推荐文章于 2024-05-21 21:30:26 发布

阅读量46

点赞数

分类专栏：机器学习文章标签：机器学习回归人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/komjay/article/details/134476038

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、学习目标

1.认识什么是回归任务

2.了解回归分析的三种方法

3.学习扩展的非线性回归模型

4.掌握回归任务中的误差分析工作

二、什么是回归任务

回归任务的目标是，对于一系列数据（x，y），我们设计出一个模型f，使得f(x)=y。这不就是分类任务嘛？其实不一样，数据中的y不再是两类或者多类，而是有一定的规律性。而回归任务主要做的，其实是用一条曲线去串起这一系列数据。如下所示：

当然，在二维中，这是一条曲线，在高维中，他就是一个超平面，训练数据的点则会落在这个超平面上。

而回归问题的数学定义如下：

而将分类问题与回归问题进行对比：实际上分类也可以看成是一个分类问题：

而在实际应用中，回归模型比分类模型更弱：

（1）手段有限，应用的场景太少

（2）智能不足，无法再继续智能化了

（3）构造函数难，一元回归模型比较多，但是多元回归就比较少了。

但还是要学回归模型，就像现在都有大模型了，你还是得从机器学习学起。

先看一下对模型和数据的描述：

关于“平均结果”，可以这样认为，我们有n个不同的数据库，用于训练n个模型，对n个模型取平均就是这个模型（线性回归模型）的“平均结果”。他这里写的y就是我们模型，而不是数据的标签。

学习的方法有三个：最小二乘估计、最大似然估计、最大后验估计。

三、最小二乘估计（Least Squares）

其实这在高中就学习过的方法，计算的就是所有点到直线的距离之和最短的直线：

我们直接看其最后结果吧，这个方法是最简单、最经典的方法了：

四、最大似然估计

最大似然估计的思想是认为真实的数据和我们得到的数据有受到环境噪音的影响。我们对这个噪音进行建模：建模成一个正态分布，于是我们的目标就是求对于我们数据的最大似然概率。

噪音建模如下：（如右下图的绿色部分）

对这个似然函数取对数：

消除定值的部分，于是得到了我们的目标函数。会发现最大似然估计的结果与最小二乘法一模一样：

于是乎，既然想到最大似然，我们就想能否用最大后验来估计呢？

五、最大后验估计

按照理论，最大后验就是在似然的基础上，乘上先验概率。

二者相乘然后取对数，就能得到我们的目标函数了：

发现此时的最大后验概率估计就是对最大似然估计（当然，也是最小二乘估计）的正则化结果。而正则化的好处就是避免模型的过拟合问题。

过拟合问题，表现在图片中就是每个点都在曲线上，这并不是好的表现，因为这只是在训练集中表现得结果，其在测试集的表现就可能很差，毕竟，绿色的线才是理想的函数。而过拟合问题表现在模型中就是参数量过多，于是正则化项的作用就是避免参数量过多，如下图就是加了正则化项的目标函数，对θ取二范数是正则化项，当参数量多的时候，整个目标值会变大，于是这样的模型我们不要。λ是人工设置的一个值，称为正则化因子，λ越大，就让模型更注重减少参数，否则就越看重正确率。

此外，在这里，正则化结果还能避免矩阵无法求逆的问题。

六、扩展的非线性模型

暂无

七、误差分析

回归问题的误差分析分为三个：

先看一大堆的公式推导：（这是在确定偏差、方差和噪声，计算的原理是比较模型的输入和标签的差距）

其中E可以通过下面这几张图来表示：

这张图也表示了正则化因子特别地对方差的影响。

八、本章小结

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 (第五章回归分析)

回归任务的目标是，对于一系列数据（x，y），我们设计出一个模型f，使得f(x)=y。这不就是分类任务嘛？其实不一样，数据中的y不再是两类或者多类，而是有一定的规律性。而回归任务主要做的，其实是用一条曲线去串起这一系列数据。如下所示：当然，在二维中，这是一条曲线，在高维中，他就是一个超平面，训练数据的点则会落在这个超平面上。而回归问题的数学定义如下：而将分类问题与回归问题进行对比：实际上分类也可以看成是一个分类问题：而在实际应用中，回归模型比分类模型更弱：（1）手段有限，应用的场景太少。
复制链接

扫一扫

专栏目录

komjay CSDN认证博客专家 CSDN认证企业博客

码龄4年

54: 原创

104万+: 周排名

3万+: 总排名

1万+: 访问

: 等级

773: 积分

184: 粉丝

230: 获赞

20: 评论

280: 收藏

私信

关注

热门文章

分类专栏

最新评论

第三章混合推荐系统和推荐系统评价标准
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
算法中的最优化方法与实现（第2课线性规划）
CSDN-Ada助手: 恭喜作者继续分享关于算法最优化方法与实现的知识，这对于学习算法的读者来说是非常宝贵的资源。希望作者在未来的创作中能够深入探讨一些实际案例，结合具体的应用场景来解释算法的实现过程，这样读者们会更容易理解和应用所学到的知识。期待作者的下一篇文章！
自然语言处理(第17课文本分类和聚类)
eeet9: 作者您好，您也是国科大学生吗
机器学习（第2章贝叶斯理论与应用）
CSDN-Ada助手: 非常感谢您分享这篇关于机器学习中贝叶斯理论与应用的博客！您的持续创作让我们受益良多。希望您能继续深入探讨机器学习领域的其他重要理论和应用，比如深度学习或者神经网络等，这些内容也将对我们有很大的帮助。期待您的下一篇精彩内容！
自然语言处理(第3课形式语言与自动机)
CSDN-Ada助手: 非常感谢作者的辛勤劳动，第10篇博客内容丰富，尤其是关于自然语言处理中形式语言与自动机的讲解让我受益匪浅。希望作者能够继续坚持创作，不断分享自己的学习心得和见解。下一步建议可以尝试结合实际案例或者应用场景，让读者更加直观地理解相关概念。期待作者更多精彩的文章，谢谢！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。