数据科学导引欧高炎重点知识二

1.说明

从3开始编号的原因是与书本一致。

上一篇数据预处理
下述所有的计算过程复杂程度不是人可以接受的,所以只需要懂得理论,知道方法,记得步骤即可。计算交给计算机。

3.回归模型

3.1线性回归

运用线性回归的假设

  • 输入特征非随机且互不相关
  • 随机误差具有零均值、同方差的特点,且彼此不想关
  • 输入特征与随机误差不相关
  • 随机误差服从正太分布

假设好像有点多哈,但是条条必要。

一元线性回归

一个已有特征x,一个预测特征y,模型为 y = w 1 x + w 0 y=w_1x+w_0 y=w1x+w0
w 1 w_1 w1 w 0 w_0 w0为参数,目的是使样本在一条直线附近
在这里插入图片描述

比较简单,求解一下最优化问题
(这个也叫残差平方和)
min ⁡ w 1 , w 0 ∑ i = 1 n ( y i − w 1 x i − w 0 ) 2 \min_{w_1,w_0}\sum_{i=1}^{n}(y_i-w_1x_i-w_0)^2 w1,w0mini=1n(yiw1xiw0)2

只需要对 w 1 w_1 w1 w 0 w_0 w0分别求导令为零,解方程组即可。就得到了最优参数的形式,这种方法叫最小二乘法。
在这里插入图片描述

多元线性回归

同理,假设d维(一元是一维),模型为 y = w 1 x 1 + w 2 x 2 + . . . + w d x d + w 0 y = w_1x_1+w_2x_2+...+w_dx_d+w0 y=w1x1+w2x2+...+wdxd+w0
向量写法 y = W T x \textbf{y}=\textbf{W}^T\textbf{x} y=WTx此时的最优化问题,也就是残差平方和为
∣ ∣ y − Xw ∣ ∣ 2 2 ||\textbf{y}-\textbf{Xw}||_2^2 yXw22

一通计算猛如虎(向量、矩阵的计算具体可以参考这里
就得到了最优参数的形式,也就是正规方程解
在这里插入图片描述

当特征数大于样本量的时候(矩阵的列d>行n),正规方程解容易产生过拟合问题。

解决方法:正则化和特征选择

过拟合与欠拟合

过度拟合:训练误差很小,泛化误差很大
非专业术语解释:参数得到的模型拟合数据拟合的很好,而不能用来预测数据。

欠拟合:训练误差很大,泛化误差很大
非专业术语解释:参数得到的模型拟合数据拟合的不够,所以预测数据也不够好。

过度拟合是把已有数据本身得一些独有特点也“学习”进来了,所以在预测数据的时候,把这些特点当成了预测数据会有的特点。

在这里插入图片描述

3.2线性回归正则化

什么是正则化?
在模型中添加一些惩罚项或约束条件来控制模型的复杂度,解决过拟合问题。

包括岭回归和LASSO

LASSO怎么翻译?书上没说我也不知道。

岭回归

岭回归在模型中添加怎么样的约束条件呢?
这样:

s . t . ∣ ∣ w ∣ ∣ 2 ≤ C s.t.\qquad||w||_2\le{C} s.t.w2C所以我们只要求解下面的最优化问题
min ⁡ w ∣ ∣ y − Xw ∣ ∣ 2 2 , s . t . ∣ ∣ w ∣ ∣ 2 ≤ C \min_{\textbf{w}}||\textbf{y}-\textbf{Xw}||_2^2,\qquad s.t.\quad||w||_2\le{C} wminyXw22

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值