0.概述
按照李航编著的《统计学习方法》中定义的机器学习三要素分别是:模型、策略和算法。分别指模型的假设空间、模型选择的准则以及模型学习的方法。
下面将结合周志华的《机器学习》来总结机器学习的策略,及选择模型的准则。
- 面对不同机器学习算法,或同一学习算法的不同学习器,需对其性能或泛化性能进行评估,才能选择出最优模型。
- 下面内容从数据集划分和选择模型时的总体步骤入手,然后总结了这些步骤中所用到的指标,以及论述了比较检验,即表征了那些指标,除了在训练集上有意义,在统计学意义上对于未知数据是否也具有一样的结果,最后对模型泛化能力进行了简述。
1.数据集划分和模型选择总体步骤
综合周志华的《机器学习》的评估方法以及《统计学习方法》的交叉验证等内容。个人认为,这些内容实际上概述的是数据集的划分,以及模型选择方法的总体步骤。
1.1训练集和测试集要求
训练集和测试集互斥。
训练集和测试集要保持数据分布的一致性:采用分层采样方法
另外有些资料是分为训练数据和测试数据,训练数据分为训练集和验证集。训练集用于训练,验证集用于模型选择和调参。测试数据用于验证泛化性能。
自我总结:有些资料没有提到验证集,而有些资料提到验证集。个人认为是有些模型或算法,需要在训练过程中同时用到训练集和验证集。即训练数据包括训练集和验证集。而有些模型或算法则不需要验证集,只需要训练集即可。
1.2数据集划分办法及策略步骤
1.2.1留出法(hold-out)
若干次随机&#x