学习理论
1、基本概念
2、PAC理论
3、VC维
4、极大似然,最大后验概率,贝叶斯估计
5、模型评估与评价指标
6、模型诊断调参
六、模型诊断与调参
一、快速搭建
1、数据集准备
2、特征工程
3、模型选择
4、模型评价
在我们开发过程中,我们往往都是摸着石头过河,我们不知道数据应该是什么样子,不知道数据的特征,数据集多少合适,如何进行特征工程,选择什么样的模型最合适,最后我们采用什么指标来评价模型。对于一系列模糊的过程,我们很难确定各个模块该如何处理,如何优化,所以我们需要快速搭建一个模型,通过结果去分析如何优化问题。
二、偏差/方差分析
可以说,决定模型最后性能的就是偏差和方差,如果模型在测试集上很好,在训练集上不好,那么很有可能是模型方差过大(模型过拟合,前提是训练集和测试集分布大致一致)。如果模型在训练集上不好,那么意味着模型偏差过大(模型欠拟合)。针对这两种情况,采用控制变量法去调优模型。
一般而言,在模型调优的过程有如下选择:
1)更多的数据集
2)特征工程
3)模型参数调优
4)优化算法调优
5)换模型,换优化算法
6)数据集分析
如何定位出模型的问题,就需要分析模型在训练集和测试集上误差来大致确定是偏差问题还是方差问题。
偏差问题:
1)优化算法:是否收敛,学习率是否合适,迭代次数是否合适,是否需要换优化算法
2)模型:模型参数选择是否合适,模型的表示能力是否更强,是否需要换模型
3)特征工程:特征选择和特征提取是否做的不够
方差问题:
1)测试集和训练集分布是否一致
2)模型是否加强正则项,调优模型防止过拟合的参数
3)优化算法是否可以提前收敛
4)特征工程
5)增加训练数据集
其中最难是不同的模型有不同的调优方式,尤其是参数多的模型,一般采用控制变量的方法固定其他不变来调整其中一个来调优。对于不同的模型,还有特殊的处理技巧,比如深度学习,各种超参,技术都会影响性能。另外,特征工程是一个觉得模型性能上限的技术,要想得到一个很好的模型,后期大量时间花费在特征工程上。