机器学习笔记(二)基础介绍(2)

本文介绍了机器学习中的模型评估与选择,包括训练误差和测试误差的概念,过拟合及其解决策略。详细讲解了正则化和交叉验证方法,如简单交叉验证和K-折交叉验证,并探讨了生成模型与判别模型的区别和特点。最后,提到了模型评价指标,如准确率、精确率、召回率和ROC曲线。
摘要由CSDN通过智能技术生成

本文包括以下内容:

 

1. 模型评估与模型选择

1.1 训练误差与测试误差

训练误差(training error)是模型关于训练集的平均损失;测试误差(test error)是模型关于测试误差的平均损失。测试误差反映了学习方法对未知的测试数据集的预测能力。

泛化能力(generalization ability):学习方法对未知数据的预测能力。

 

1.2 过拟合与模型选择

过拟合(over-fitting):指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

模型选择(model selection):选择复杂度适当的模型,以达到使测试误差最小。

                                               

 

2. 模型选择方法:正则化与交叉验证

2.1 正则化

正则化(regularization)是最小化结构风险策略的实现,是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型复杂度越大,正则化项越大。正则化的作用是选择经验风险和模型复杂度同时都较小的模型。

2.2 交叉验证

如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为

  • 训练集(training set):训练模型
  • 验证集(validation set):用于模型的选择
  • 测试集(test set):用于最终对学习方法的评估。

在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。如果验证集有足够的数据,用它对模型进行选择也是有效的,但现实中数据常常是不充足的,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值