- 第二章 实践方法论
一、损失分析
1、模型偏差
若我们设置的模型对数据匹配不高或者过于简单,可能会出现模型函数集合中的较小损失并不是我们要找的最小损失,如下图。可以通过增加输入特征值来提高模型灵活性。
2、优化问题
优化我们常用梯度下降法,这种方法可能会让我们找见局部最小值,而不是整个函数集合的最小损失。确定这种问题的方法是通过比较不同层次的模型损失,若深层模型损失大于浅层模型则可以判断是该模型优化问题。如下图。
3、过拟合
过拟合意思是只对特定数据有精准分析丧失了对其他数据的准确性,相当于是模型在训练数据上表现出较低的损失,但在测试数据上的损失太大。
解决方法一个是增大训练集,比如用数据增强的方法;另一个是对模型进行限制,比如:给较少的参数或者特征。但本质上都是对模型进行限制。
我们可以发现灵活太小会导致模型偏差,但太大又会导致过拟合,所以我们需要一个刚刚好的模型,如下图。
二、模型选择
我们可以通过将数据分为训练集和验证集。比如通过k折交叉验证法,将数据分为3份分别两两做训练集,重复三次,将所有分组用模型跑一遍选择平均数据最好的模型。