一些概念
P类问题——所有复杂度为多项式时间的问题集合
NP类问题——可以在多项式时间内验证一个解是否正确的问题
评估方法
数据要分为训练集和测试集(注意在划分训练集和测试集的时候,要保持数据分布的一致性),
有三种方法:
1.留出法
- 将训练集跟测试集划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T。
- 在使用时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
- 常见做法是留2/3~4/5作为训练集,剩余的作为测试集
2.交叉验证法
- 一般称为k折交叉验证
- 一整个数据集划分为K类,然后将k-1类作为训练集,剩下的1类作为测试集。以此类推,进行k次
- 常用的是10折交叉验证、5折交叉验证、8折交叉验证
3.自助法
- 给定包含m个样本的数据集D,随机(放回)抽样抽出D'个,(有约36.8%的数据一定不会被采样到——这些数据可用作测试),D'用作训练集,D/D'用作测试
- 能从初始数据集中产生多个不同的训练集
- 数据集较小且难以划分的时候特别有用
性能度量
1.错误率
所有[f(xi)≠yi(预测不等于真实)]/m(所有样本数)
2.精度
1-错误率
3.查准率
真实情况 预测情况 正例 反例 正例 TP(真正例) FN(假正例) 反例 FP(假反例) TN(真反例) P=TP(真实和预测都是正例)/TP+FP(预测是正例)
4.查全率
R=TP(真实和预测都是正例)/TP+FN(真实情况是正例,无论预测出来是正还是假)
注:查准率高时,查全率往往是低的;查准率低时,查全率往往是高的。通常只有一些简单的任务,才可能使查准率和查全率都比较高
一些概念:
置信度(可靠度) 总体参数值落在样本统计值某一区内的概率;
置信区间 指在某一置信水平下,样本统计值与总体参数值间误差范围
置信区间越大,置信水平越高
自由度 指计算某一统计量时,取值不受限制的变量个数。通常,df=n-k. n为样本含量,k为被限制的条件数或变量个数.
比较检验方法(待写详细):
1.假设检验
2.交叉检验t检验
3.McNemar检验
4.Friedman检验、Nemenyi后续检验
关于偏差、方差、噪声
偏差 度量了学习算法的期望预测与真是结果的偏离程度-----刻画了学习算法本身的拟合能力
方差 度量了同样大小的训练集的变动所导致的学习性能的变化-----刻画了数据扰动所造成的影响
噪声 表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界-----刻画了学习问题本身的难度
训练不足-----拟合能力不够强----偏差主导泛化错误率
训练加深-----拟合能力增强,数据扰动能被学习到-----方法主导泛化错误率
训练过猛-----容易造成过拟合