训练误差
欠拟合
- 训练集与测试集准确度均低,从误差上讲属于偏差大
- 模型太简单
过拟合
- 训练集准确度高,测试集准确度低,误差上属于方差大
- 模型太复杂
评估方法
留出法
- 将数据集合D划分为互斥的训练集合S和训练集合T
- S/T的比例一般是7:3,通常将2/3~4/5的样本作为S
交叉验证法
- 将数据集D划分为互斥的K个子集
- 每次选取k-1个子集作为训练集合,剩余1个作为测试集合,平均准确度作为评估指标
自助法
- 采取boosting发法,本质就是有放回抽样,这样保证整个数据集D能够尽可能学习到
性能度量
错误率和精度
- 对于分类任务:
- 对于一般数据分布D和概率密度函数p:
查准率与查全率
- 可以参考混淆矩阵:
查准率P= T P / ( T P + F P ) TP/(TP+FP) TP/(T