一、分类、回归、聚类不同的评判指标
1、分类(离散); 回归(连续)。 2、“训练误差”——模型在训练集上的误差; “泛化误差”——在新样本(新标签)上的误差; 模型目标——努力使经验误差最小化 。 3、常用指标: (1)准确率(Accuracy)=正确的数/总数; (2)AUC是一个概率值,越大越好; (3)均方误差是参数估计值与真实值平方的期望值; (4)平均绝对均值是参数估计值与真实值的绝对值之和的期望值。 4、交叉验证: 将数据集D划分为k歌大小相似的互斥子集,即D=D1∪D2∪...Dk,其中Di∩Dj非空且i≠j。
实现交叉验证的案例分析: