[笔记整理]
- 拟合与过拟合
- 过拟合是习得了训练集本身的特点。
- 应对:正则项,早停。
- 欠拟合是训练集的一般特点还没学好。
- 应对:决策树增加分支,神经网络增加训练轮数。
- 过拟合是习得了训练集本身的特点。
- 泛化误差与测试误差:实际中泛化误差很难取得,所以一般用测试集上产生的测试误差代替。测试集需要尽可能保持真实情况下的分布。
- 训练\测试集分割方法:
- 留出法:
- 简单分割,划为训练、测试两个互斥集合。
- 划分带有随机性,所以一般进行多次训练,取平均值。
- 交叉验证法:
- 将数据集平均分割成K份,其中K-1份用于训练,剩下一个用于测试。每一次划分可以进行K次训练。
- 划分同样带有随机性,因此一般进行多次划分,取平均值。
- p次k折交叉验证指的是进行p次训练,每一次都将数据集划分成k份。
- 自助法:
- 有放回地取数据建立训练集
- 训练集大小与数据集一样。可能存在重复采样。
- 利于进行集成学习,适用于小数据集。
- 会引入偏差,改变分布。
- 留出法:
- 回归问题一般用均方误差进行性能度量。
- 查准率:真实为正且预测为正/(真实为正预测为正+ 真实为负预测为正)
- 查全率:真实为正且预测为正/(真实为正预测为正+ 真实为正预测为负)
- P-R曲线
- 绘制方法:按置信率从大到小排列样本,逐个设为阈值,得到当前情况的混淆矩阵,进而计算查准率和查全率制图。
- 能包住别的曲线的学习器有更好的性能。
- 平衡点用于在不同学习器的曲线交叉时度量性能。
- ROC:
- 纵轴:真正例率= 真实为正预测为正/真实为正预测为正+真实为正预测为负
- 横轴:假正例率=真实为负预测为正/真实为负预测为负+ 真实为负预测为正
- 泛化误差=偏差+方差+噪声
- 偏差:算法本身拟合能力
- 方差:训练数据扰动的影响
- 噪声:问题本身的难度
- 泛化误差的影响因素:
- 初期:偏差-算法本身
- 中期:方差-数据
- 后期:方差-数据