数据科学导引欧高炎重点知识二

最新推荐文章于 2022-06-24 19:03:26 发布

水成丶文

最新推荐文章于 2022-06-24 19:03:26 发布

阅读量802

点赞数

分类专栏：数据科学导引文章标签：线性代数算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a112113114q/article/details/108164835

版权

本文介绍了线性回归的基本假设、一元与多元线性回归的模型，探讨了过拟合与欠拟合的概念，并详细讲解了正则化技术，包括岭回归、LASSO和弹性网络正则化。此外，还提到了非线性回归的样条回归和径向基函数网络（RBF）的应用。

摘要由CSDN通过智能技术生成

数据科学导引重点知识

1.说明
3.回归模型

1.说明

从3开始编号的原因是与书本一致。

上一篇数据预处理
下述所有的计算过程复杂程度不是人可以接受的，所以只需要懂得理论，知道方法，记得步骤即可。计算交给计算机。

3.回归模型

3.1线性回归

运用线性回归的假设

输入特征非随机且互不相关
随机误差具有零均值、同方差的特点，且彼此不想关
输入特征与随机误差不相关
随机误差服从正太分布

假设好像有点多哈，但是条条必要。

一元线性回归

一个已有特征x，一个预测特征y，模型为 $y=w_1x+w_0$
$w_1$ 和 $w_0$ 为参数，目的是使样本在一条直线附近
在这里插入图片描述

比较简单，求解一下最优化问题
（这个也叫残差平方和）
$\min_{w_1,w_0}\sum_{i=1}^{n}(y_i-w_1x_i-w_0)^2$

只需要对 $w_1$ 和 $w_0$ 分别求导令为零，解方程组即可。就得到了最优参数的形式，这种方法叫最小二乘法。
在这里插入图片描述

多元线性回归

同理，假设d维（一元是一维），模型为 $y = w_1x_1+w_2x_2+...+w_dx_d+w0$
向量写法 $\textbf{y}=\textbf{W}^T\textbf{x}$ 此时的最优化问题，也就是残差平方和为
$||\textbf{y}-\textbf{Xw}||_2^2$

一通计算猛如虎（向量、矩阵的计算具体可以参考这里）
就得到了最优参数的形式，也就是正规方程解
在这里插入图片描述

当特征数大于样本量的时候（矩阵的列d>行n），正规方程解容易产生过拟合问题。

解决方法：正则化和特征选择

过拟合与欠拟合

过度拟合：训练误差很小，泛化误差很大
非专业术语解释：参数得到的模型拟合数据拟合的很好，而不能用来预测数据。

欠拟合：训练误差很大，泛化误差很大
非专业术语解释：参数得到的模型拟合数据拟合的不够，所以预测数据也不够好。

过度拟合是把已有数据本身得一些独有特点也“学习”进来了，所以在预测数据的时候，把这些特点当成了预测数据会有的特点。

在这里插入图片描述

3.2线性回归正则化

什么是正则化？
在模型中添加一些惩罚项或约束条件来控制模型的复杂度，解决过拟合问题。

包括岭回归和LASSO

LASSO怎么翻译？书上没说我也不知道。

岭回归

岭回归在模型中添加怎么样的约束条件呢？
这样：

$s.t.\qquad||w||_2\le{C}$ 所以我们只要求解下面的最优化问题
$\min_{\textbf{w}}||\textbf{y}-\textbf{Xw}||_2^2,\qquad s.t.\quad||w||_2\le{C}$

最低0.47元/天解锁文章

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
数据科学导引欧高炎重点知识二

数据科学导引重点知识1.说明3.回归模型3.1线性回归运用线性回归的假设一元线性回归多元线性回归过拟合与欠拟合3.2线性回归正则化岭回归LASSO岭与LA的对比弹性网络正则化与Group LASSO3.3非线性回归样条回归1.说明从3开始编号的原因是与书本一致。上一篇数据预处理3.回归模型3.1线性回归运用线性回归的假设输入特征非随机且互不相关随机误差具有零均值、同方差的特点，且彼此不想关输入特征与随机误差不相关随机误差服从正太分布假设好像有点多哈，但是条条必要。一元线性回归一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。