独立同分布
错误率 分类错误的样本数占样本总数的比例 E=a/m
精度 (1-a/m)*100%
误差 学习器预测的值与样本实际的值之间的差异
在训练集上称为经验误差 或者 训练误差
在新的样本上称为 泛化误差
泛化误差越小越好,但实际只能让训练误差最小化
尽可能从训练样本中学得所有潜在样本的普遍规律
但可能会导致把训练样本的特征作为了所有潜在样本的特征, 导致泛化能力下降 ----过拟合
相反的 就是欠拟合
测试集
测试误差作为泛化误差的近似
测试集尽量与训练集互斥,不要在训练集中出现过
训练集和测试集的划分尽量保持数据分布的一致性
分层采样