1、经验误差与过拟合
错误率: 出错样本/样本总数
精度=1-错误率
过拟合: 学习能力过强,把样本的特性当作了总体的特性,忽略了其普适性
欠拟合: 学习能力不够强,忽略了样本中可以表示总体特性的一些特征。
2、模型评估方法
常见方法有:留出法、交叉验证法、自助法,
另外还需要对模型进行调参以得到最终模型。
留出法: 把数据集D分成两个部分(彼此互斥),分别为训练集S和测试集T,利用S训练出模型后,用T来评估其测试误差,需要注意:1、划分要与数据保持一致以避免引入额外的偏差,比如分层抽样要对各个测试集按照相同的比例抽样;2、确定比例后,划分方式可以有很多种,比如:可以排序后取前三十个也可取后三十个。常见做法将样本的2/3—4/5作为训练集。
交叉验证法: 先将数据划分为大小相似的互斥子集,(划分时保持数据分布的一致性)得到D i _i i