机器学习笔记——9 模型选择与特征选择
对于一个学习问题,往往我们有不同的模型可以选择,本文首先介绍两种模型选择(model selection) 的通用做法,分别是交叉验证法(cross validation)和k重交叉验证法(k-folds cross validation)。本文的第二部分介绍了两种特征选择(feature selection) 的方法,分别是包围式特征选择(wapper feature selection) 以及过滤式特征选择(filter feature selection)。
模型选择
在前面我们看到了选择模型时,需要对模型的偏差和方差进行权衡,现在假设我们选用的模型集合为 M = { M 1 , . . . , M k } M = \{M_1,...,M_k\} M={ M1,...,Mk},如果我们仅仅是对每一类模型 M i M_i Mi进行训练,得到一些假设 h i h_i hi。最后在各个 h i h_i hi中挑选出具有最小经验误差的 h ∗ h^* h∗作为结果,那么显然我们会倾向于那些比较复杂的模型 M ∗ M^* M∗。
交叉验证法
交叉验证法比较好的解决了这个问题,我们将样本集分为 S t r a i n S_{train} Strain, S c v S_{cv} Scv。然后利用 S t r