一、 留一交叉验证(Leave-one-out Cross Validation)
留一交叉验证(LOO CV)指的是使用数据集X中的(n-1)个样本数据作为训练集(train),然后剩下的1条数据作为测试集(test)。每次只使用一个数据作为测试集,剩下的全部作为训练集。
假设数据集X中数据个数为n,通过LOO交叉验证训练模型,一共需要训练n次。由于得到了充分的训练,这种方法得出的结果与训练整个测试集的期望值最为接近,但是时间成本过于庞大。
因此留一交叉验证常用于小样本数据集的模型训练中。
二、随机森林(RandomForest)
本文使用随机森林二分类问题作为模型训练的示例,故不再详细阐述随机森林的原理。
各位实战中可以把这一步换成任何的二分类模型。
三、F1分数(F1-score)
是常见的用于衡量机器学习模型效果的评估指标,F1分数同时考虑精确率和召回率,让两者同时达到最高,取得平衡。F1 分数计算式为 2*精确率*召回率/(精确率+召回率)。
但我们需要得到分类模型的混淆矩阵才能计算这些指标。
混淆矩阵 | 预测为正类 | 预测为负类 |
实际为正类 | TP | FN |
实际为负类 | FP |
TN |