目录:
🌵🌵🌵前言
✨你好啊,我是“ 怪& ”,是一名在校大学生哦。
🌍主页链接:怪&的个人博客主页
☀️博文主更方向为:课程学习知识、作业题解、期末备考。随着专业的深入会越来越广哦…一起期待。
❤️一个“不想让我曾没有做好的也成为你的遗憾”的博主。
💪很高兴与你相遇,一起加油!
一、评估假设
将样本划分为训练集和测试集 随机选择 比例建议:7:3
学习的是如何分辨偏差与方差的问题,与评估假设,如何解决偏差较大(欠拟合)、方差较大(过拟合)的问题
1、线性回归和平方误差标准时,测量误差的定义
最小化训练集的J(θ)得到θ
带入测试集求误差
2、分类问题(例如逻辑回归)时,测量误差的定义
0/1错误分类度量定义的测试误差
二、模型选择
取最小的测试误差 即 Min(J_test)
先根据不同的假设函数求出令损失函数最小的参数θ
然后将此θ带入测试集,求出在测试集中损失函数最小的θ(即在测试集上拟合良好)
此为用测试集拟合得到的选择参数d(即哪一表达式),再在测试集上评估假设便不太合理,所以假设可能过拟合
如果测试集很大,可能效果不会很差,但实际上这种操作并不被建议
实际评估假设的方法
把样本分为:训练集、交叉验证集、测试集
60%:20%:20%
由验证集选择模型,用测试集评价此模型的泛化误差
三、诊断偏差与方差
即要么欠拟合,要么过拟合
1、初步理解
粉色线条为训练误差,红色线条为验证集误差
当d(选取的特征)越来越多时,其在训练集上会拟合的越来越好,即其损失函数J会越来越小
当d(选取的特征)越来越大(逐渐接近最优d值),其在验证集上的J会越来越小。
当d(选取的特征)越来越大(持续大于且远离最优d值),其在验证集上的J会越来越大。
高偏差问题(偏差):训练集和验证集的误差都很大
高方差问题(方差):训练集误差较小,测试集误差较大
选择不同的模型,即参数
2、算法正则化
正则化是为了防止过拟合
如何自动的选择一个合适的正则化参数值lambda
当加入正则化向的时候,J_train,J_cv,J_test定义仍是不加正则化项数的。
选择不同的正则化参数lambda
lambda越小等于其没有缓解过拟合的情况
lambda过大,等于其过分缓解过拟合情况导致其出现欠拟合
四、学习曲线
当样本数逐渐增大时:
训练集上的误差越来越大(函数对所有样本的拟合效果不能保证)
交叉验证集上的误差越来越小(由于样本数量愈大,其泛化能力愈好)
1、高偏差情况下的学习曲线
结论:如果处于高偏差状态,增加样本数量无益
且训练误差与验证集误差都很大
2、高方差情况下的学习曲线
当训练样本增加时,仍会有些过拟合,但想要对全部数据拟合很好,则十分困难
在高方差的情形,使用更多的训练数据,对改进算法有帮助的,
当准备改进学习算法时,就需要画出学习曲线,判断情况,偏差/方差问题
五、总结修正操作
❤️❤️❤️忙碌的敲代码也不要忘了浪漫鸭!
今天是20岁的第一天