2.1 经验误差与过拟合
- m样本个数,a个错误样本
错误率E=a/m
精度1-E 误差:实际与样本输出差异
训练误差:训练集上误差
泛化误差:新样本上误差 - 过拟合:泛化能力下降,学太好(无法避免)
欠拟合:一般性不完好
2.2评估方法
- 测试集:测试误差近似泛化误差
(测试样本不在训练集出现,新)
2.2.1留出法:
- 多次随机划分、重复实验取平均值
- 2/3~4/5用于训练,剩余测试
- 训练集和测试集保持数据分布一致
2.2.2 交叉验证法
方法:
- 将数据集D划分成k个大小相似的互斥子集
- 分层采样,注意数据分布一致性
- 每次用k-1个训练集,剩下一个测试集
- k次训练测试求测试结果平均值
留一法 :
- 一个样本为一个子集
- 结果准确,但计算量大
2.2.3 自助法
- 数据集较小、难以有效划分训练测试集时可以用,会引入估计偏差。
- D-数据集(m个样本)
D’-每次随机从D挑选一个样本拷贝入D’
样本在m次采样中始终不被采到概率lim-36.8%,约1/3作测试集
2.2.4 调参、最终模型
- 训练集一部分训练,一部分评估测试作为验证集。训练集在训练过程中会有多个模型,用验证集进行模型选择和调参。
2.3性能度量
-def: 衡量模型泛化能力的标准
- 预测任务:给定样例集D,评估学习器f的性能,把预测结果f(x)和真实y比较
- 回归任务:均方误差、有概率密度的函数的均方误差
2.3.1 错误率与精度
- 错误率:公式中f(x)预测结果和真实结果不相同
指示符号:真为1,假为0
2.3.2
-
其他性能度量:查准率(好瓜是真好的瓜),查全率(真好瓜多少被发现)
-
混淆矩阵
表2.1 -
查准率、查全率
反向关系
查准率P 查全率R
-P-R图
查准率P为纵轴、查全率R为横轴作图 -
查全率和查准率性能度量
BEP:平衡点 P=R
F1度量(调和平均)
F1度量的一般形式Fβ(加权调和平均) -
n个二分类问题
1:先求各混淆矩阵的P,R再求其平均值,得到宏查准、全率和宏F1
2:将混淆矩阵的P,R总的先求平均值,再计算微查准率、查全率和微F1