ML21-模型评估选择-章节核心知识点

[笔记整理]

  1. 拟合与过拟合
    1. 过拟合是习得了训练集本身的特点。
      1. 应对:正则项,早停。
    2. 欠拟合是训练集的一般特点还没学好。
      1. 应对:决策树增加分支,神经网络增加训练轮数。

  1. 泛化误差与测试误差:实际中泛化误差很难取得,所以一般用测试集上产生的测试误差代替。测试集需要尽可能保持真实情况下的分布。

  1. 训练\测试集分割方法:
    1. 留出法:
      1. 简单分割,划为训练、测试两个互斥集合。
      2. 划分带有随机性,所以一般进行多次训练,取平均值。
    2. 交叉验证法:
      1. 将数据集平均分割成K份,其中K-1份用于训练,剩下一个用于测试。每一次划分可以进行K次训练。
      2. 划分同样带有随机性,因此一般进行多次划分,取平均值。
      3. p次k折交叉验证指的是进行p次训练,每一次都将数据集划分成k份。
    3. 自助法:
      1. 有放回地取数据建立训练集
      2. 训练集大小与数据集一样。可能存在重复采样。
      3. 利于进行集成学习,适用于小数据集。
      4. 会引入偏差,改变分布。

  1. 回归问题一般用均方误差进行性能度量。

  1. 查准率:真实为正且预测为正/(真实为正预测为正+ 真实为负预测为正)

  1. 查全率:真实为正且预测为正/(真实为正预测为正+ 真实为正预测为负)

  1. P-R曲线
    1. 绘制方法:按置信率从大到小排列样本,逐个设为阈值,得到当前情况的混淆矩阵,进而计算查准率和查全率制图。
    2. 能包住别的曲线的学习器有更好的性能。
    3. 平衡点用于在不同学习器的曲线交叉时度量性能。

  1. ROC:
    1. 纵轴:真正例率= 真实为正预测为正/真实为正预测为正+真实为正预测为负
    2. 横轴:假正例率=真实为负预测为正/真实为负预测为负+ 真实为负预测为正

  1. 泛化误差=偏差+方差+噪声
    1. 偏差:算法本身拟合能力
    2. 方差:训练数据扰动的影响
    3. 噪声:问题本身的难度

  1. 泛化误差的影响因素:
    1. 初期:偏差-算法本身
    2. 中期:方差-数据
    3. 后期:方差-数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值