机器学习分类模型与决策树详解
1. 分类模型评估指标
在评估分类模型时,与回归模型使用的指标不同。以下是一些常用的分类指标:
- 准确率(Accuracy) :最直观的性能度量,是正确预测的观测值与总观测值的比例,适用于二元和多类分类问题。
- 精确率(Precision) :也称为正预测值,主要用于二元分类问题,回答“正识别中有多少是实际正确的”。公式中,TP 是真正例(预测为正且预测正确)的数量,FP 是假正例(预测为正但预测错误)的数量。
- 召回率(Recall,Sensitivity) :同样适用于二元分类问题,回答“实际正例中有多少被正确识别”。TP 是真正例数量,FN 是假反例(预测为负但预测错误)的数量。
- F1 分数(F1 Score) :精确率和召回率的加权平均值,同时考虑了假正例和假反例,能很好地表明分类器在精确率和召回率上都有较好的值。
例如,在处理垃圾邮件和正常邮件分类问题时,我们先计算了空准确率,即一直猜测最常见类别(正常邮件)时正确预测一行的百分比:
df.label.value_counts() / df.shape[0]
结果显示正常邮件占比 0.865937,垃圾邮件占比 0.134063。这意味着盲目猜测正常邮件,大约有 87% 的时间是正确的,但我们可以做得更好。
2. 朴素贝叶斯分类器
我们可以使用贝叶斯定