【过拟合和欠拟合】【Lasso算法】

1、过拟合

所谓过拟合（over-fitting）其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。打个比喻就是当我需要建立好一个模型之后，比如是识别一只狗狗的模型，我需要对这个模型进行训练。恰好，我训练样本中的所有训练图片都是二哈，那么经过多次迭代训练之后，模型训练好了，并且在训练集中表现得很好。基本上二哈身上的所有特点都涵括进去，那么问题来了！假如我的测试样本是一只金毛呢？将一只金毛的测试样本放进这个识别狗狗的模型中，很有可能模型最后输出的结果就是金毛不是一条狗（因为这个模型基本上是按照二哈的特征去打造的）。所以这样就造成了模型过拟合，虽然在训练集上表现得很好，但是在测试集中表现得恰好相反，在性能的角度上讲就是协方差过大（variance is large），同样在测试集上的损失函数（cost function）会表现得很大。

1.1协方差

协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

二维随机变量（X，Y），X与Y之间的协方差定义为：

Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

其中：E(X)为分量X的期望，E(Y)为分量Y的期望

它是X的偏差【X-E(X)】与Y的偏差【Y-E(Y)】的乘积的数学期望

1.1.1相关系数

相关系数的定义，范围在【-1，1】

其中：Var(X)为X的方差，Var(Y)为Y的方差，其中Var(X)和Var(Y)叫做正则化因子，

1.1.2协方差为0和独立

Corr(X,Y)为0，表示X与Y不相关，这里的不相关指的是X与Y没有线性关系，但不是没有关系。因此将“相关”理解为“线性相关”也许更恰当一些

2、欠拟合

所谓欠拟合呢（under-fitting）？相对过拟合欠拟合还是比较容易理解。还是拿刚才的模型来说，可能二哈被提取的特征比较少，导致训练出来的模型不能很好地匹配，表现得很差，甚至二哈都无法识别。

3、正则化平衡欠拟合和过拟合

使得cost function始终不为0，这样就可以

回想下我们的模型，假如我们采用梯度下降算法将模型中的损失函数不断减少，那么最终我们会在一定范围内求出最优解，最后损失函数不断趋近0。那么我们可以在所定义的损失函数后面加入一项永不为0的部分，那么最后经过不断优化损失函数还是会存在。其实这就是所谓的“正则化”。

下面这张图片就是加入了正则化（regulation）之后的损失函数。这里m是样本数目，landa（后面我用“t”表示，实在是打不出）表示的是正则化系数。

注意：当t（landa）过大时，则会导致后面部分权重比加大，那么最终损失函数过大，从而导致欠拟合

当t（landa）过小时，甚至为0，导致过拟合。

4、减少神经网络规模（深度）的方法减少过拟合

对于神经网络，参数膨胀原因可能是因为随着网路深度的增加，同时参数也不断增加，并且增加速度、规模都很大。那么可以采取减少神经网络规模（深度）的方法。也可以用一种叫dropout的方法。dropout的思想是当一组参数经过某一层神经元的时候，去掉这一层上的一部分神经元，让参数只经过一部分神经元进行计算。注意这里的去掉并不是真正意义上的去除，只是让参数不经过一部分神经元计算而已。