0. 数据挖掘完整过程
业务理解-数据理解-数据准备-模型搭建-模型评估-模型发布
1. 评估方法:交叉验证法
交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现。
1.1 划分数据集
- 训练集用于训练模型参数
- 验证集用于“训练”模型的超参数
- 测试集用于估计整个模型对样本的泛化误差
1.2 作用
- 可以在一定程度上减小过拟合。
- 可以从有限的数据中获取尽可能多的有效信息。
1.3 方法
- 留出法
- k折交叉验证法
- Bootstrapping自助采样法
2. 性能度量
混淆矩阵
准确率:
A c c = T P + T N T P + F N + F P + T N Acc = \frac{TP+TN}{TP+FN+FP+TN} Acc=TP+FN+FP+TNTP+TN
在正负样本不平衡的情况下,准确率这个评价指标有很大的缺陷。比如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc 也有 99% 以上,没有意义。
二分类问题
查准率P,在所有预测为正类的样本中,预测准确的样本占比: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
查全率/召回率R,在所有真实为正类的样本中,预测准确的样本占比 : R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
F1度量: F = 2 P R P + R F=\frac{2PR}{P+R} F=P+R2PR
多分类问题
法1:在n个二分类混淆矩阵上综合考量。
宏查准率P: m a c r o P = 1 n ∑ i = 1 n P i macroP=\frac{1}{n}\sum_{i=1}^nP_i macroP=n1i=1∑nP