数据科学导引重点知识
1.说明
从3开始编号的原因是与书本一致。
上一篇数据预处理
下述所有的计算过程复杂程度不是人可以接受的,所以只需要懂得理论,知道方法,记得步骤即可。计算交给计算机。
3.回归模型
3.1线性回归
运用线性回归的假设
- 输入特征非随机且互不相关
- 随机误差具有零均值、同方差的特点,且彼此不想关
- 输入特征与随机误差不相关
- 随机误差服从正太分布
假设好像有点多哈,但是条条必要。
一元线性回归
一个已有特征x,一个预测特征y,模型为 y = w 1 x + w 0 y=w_1x+w_0 y=w1x+w0
w 1 w_1 w1和 w 0 w_0 w0为参数,目的是使样本在一条直线附近
比较简单,求解一下最优化问题
(这个也叫残差平方和)
min w 1 , w 0 ∑ i = 1 n ( y i − w 1 x i − w 0 ) 2 \min_{w_1,w_0}\sum_{i=1}^{n}(y_i-w_1x_i-w_0)^2 w1,w0mini=1∑n(yi−w1xi−w0)2
只需要对 w 1 w_1 w1和 w 0 w_0 w0分别求导令为零,解方程组即可。就得到了最优参数的形式,这种方法叫最小二乘法。
多元线性回归
同理,假设d维(一元是一维),模型为 y = w 1 x 1 + w 2 x 2 + . . . + w d x d + w 0 y = w_1x_1+w_2x_2+...+w_dx_d+w0 y=w1x1+w2x2+...+wdxd+w0
向量写法 y = W T x \textbf{y}=\textbf{W}^T\textbf{x} y=WTx此时的最优化问题,也就是残差平方和为
∣ ∣ y − Xw ∣ ∣ 2 2 ||\textbf{y}-\textbf{Xw}||_2^2 ∣∣y−Xw∣∣22
一通计算猛如虎(向量、矩阵的计算具体可以参考这里)
就得到了最优参数的形式,也就是正规方程解
当特征数大于样本量的时候(矩阵的列d>行n),正规方程解容易产生过拟合问题。
解决方法:正则化和特征选择
过拟合与欠拟合
过度拟合:训练误差很小,泛化误差很大
非专业术语解释:参数得到的模型拟合数据拟合的很好,而不能用来预测数据。
欠拟合:训练误差很大,泛化误差很大
非专业术语解释:参数得到的模型拟合数据拟合的不够,所以预测数据也不够好。
过度拟合是把已有数据本身得一些独有特点也“学习”进来了,所以在预测数据的时候,把这些特点当成了预测数据会有的特点。
3.2线性回归正则化
什么是正则化?
在模型中添加一些惩罚项或约束条件来控制模型的复杂度,解决过拟合问题。
包括岭回归和LASSO
LASSO怎么翻译?书上没说我也不知道。
岭回归
岭回归在模型中添加怎么样的约束条件呢?
这样:
s . t . ∣ ∣ w ∣ ∣ 2 ≤ C s.t.\qquad||w||_2\le{C} s.t.∣∣w∣∣2≤C所以我们只要求解下面的最优化问题
min w ∣ ∣ y − Xw ∣ ∣ 2 2 , s . t . ∣ ∣ w ∣ ∣ 2 ≤ C \min_{\textbf{w}}||\textbf{y}-\textbf{Xw}||_2^2,\qquad s.t.\quad||w||_2\le{C} wmin∣∣y−Xw∣∣22,