评估方法
交叉验证用于评估模型的预测性能,防止模型过于复杂而引起的过拟合。该方法将原始数据进行分组,一部分做为训练集来训练模型,另一部分做为验证集集来评价模型。
- 留出法(hold-out):
- 将数据集划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集。
- 分层采样(stratified sampling): 保留类别比例的采样方式。
- k折交叉验证法:
- 留出法只做一次分割,它对训练集、验证集和测试集的样本数比例,还有分割后数据的分布是否和原始数据集的分布相同等因素比较敏感,不同的划分会得到不同的最优模型,而且分成三个集合后,用于训练的数据更少了。
- 将数据集划分为k个大小相似的互斥子集(分层采样),每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集;由此获得k组训练/测试集,并进行k次训练和测试。
- 当k等于样本总数时,即是留一法(leave-one-out),,每次的测试集都只有一个样本,这个方法用于训练的数据只比整体数据集少了一个样本,因此最接近原始样本的分布;但是训练复杂度增加了,一般在数据缺乏时使用。
- 自助法(bootstrapping):
- 即在数据集中,对样本进行有放回的抽样 ,组成了新的数据集作为训练集。
- pros: 数据集小,难以有效划分训练/测试集,集成学习时可用。
- cons: 会有重复多次的样本从而改变了初始数据集的分布,会引入估计偏差,因此在初始数据量足够时,留出法和交叉验证法更常用。
性能度量
回归
- SSE:
- SSR: 预测值与真实值均值之差的平方的和
- MSE:预测值与真实值的误差的平方的和的均值,抵消数据量的影响
- RMSE:抵消square带来的量纲的影响
- coefficient of determination:用以度量因变量中的变异可由自变量解释部分所占的比例
分类
1.
- Accuracy:不适用于样本不均衡的情况
- Error
2.
- Precision:
- Recall:
- F1:
3.
- ROC:纵轴:真正率(TPR/Recall);横轴:假正率(FPR)
- AUC
聚类
1.外部评价标准:
- purity / accuracy:正确聚类的文档 / 总文档
- 兰德指数RI与调整兰德指数ARI
- 互信息MI与调整互信息AMI
2.内部评价标准:
- 轮廓系数 :
- Dunn指数:
- DB指数: