【吴恩达机器学习二刷笔记Part 4】进行机器学习的一些建议以及最后一个监督学习算法：支撑向量机

最新推荐文章于 2024-09-24 10:17:17 发布

不要加班

最新推荐文章于 2024-09-24 10:17:17 发布

阅读量626

点赞数 1

分类专栏：机器学习文章标签：机器学习算法学习

本文链接：https://blog.csdn.net/m0_54917022/article/details/126567522

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

由于前段时间返校报道，完成导师布置的论文，进度落下了！但是论文也完成的不好啊！同组的同学研一刚开学就发论文了，而我连论文都看不懂、代码都还不会写。其实能感觉到老师对我要求是很高的，而我目前是远远达不到她的要求的，能感觉到她的不满意（虽然老师很温柔，从来不骂人，但是都成年人了，一些潜在的意思还是能体会出来的）

对于应用机器学习的建议 Advice for applying ML

决定下一步做什么 Deciding what to do next

例子：房价预测算法泛化程度不好。
获取更多的训练集数据在很多时候都是没有多大用处的
所以在遇到问题时，我们应该在我们可以想到的方法中做出预测，提前确定那些方法是有用的，对于解决问题是有利的
在这里插入图片描述

机器学习诊断法
所以接下去会学习一系列的机器学习诊断法，帮我们把时间用在刀刃上
在这里插入图片描述

评估算法 Evaluating a hypothesis

其实就是表示出模型的准确率
总是想画出假设函数观察拟合程度是不合理的，因为很多时候假设函数都有总多的特征 在这里插入图片描述

所以我们提出一种新的方法，把数据分为训练集和测试集，然后用训练集计算出theta后再计算其代价函数的误差
在这里插入图片描述

模型选择和训练、验证、测试集 Model selection and training/validation/test sets

为什么要进行模型选择？因为对于一个未知的训练集，我们是不知道应该用什么模型去拟合它的，所以我们要进行模型的选择。对多个不同的拟合函数进行训练，之后比较他们的代价函数，从而选出对于训练集以及测试集拟合程度最好的函数。但现实情况中遇到的数据很有可能是和训练集以及测试集中的数据是很不一样的，换句话说这个模型可能只是仅仅对于训练集和测试集的拟合程度好，它的泛化能力是很差的。所以就引出了训练、验证、测试集去得到泛化能力更好的模型。
在这里插入图片描述

训练集：测试集：验证集（交叉验证集）常见比例 = 6:2:2
在这里插入图片描述

所以接下去要定义各部分数据集的误差去选择更好的模型
在这里插入图片描述

之后应该用训练集得到每一个模型的theta，之后再用验证集合去选择得到最好的模型，最后用从未见过的测试集去检查该模型的泛化能力
在这里插入图片描述

诊断偏差和方差 Diagnose bias vs. variance

方差就是过拟合问题，可以很好地拟合数据，但是曲线波动太大；偏差就是欠拟合问题，就是模型对于数据的拟合程度差在这里插入图片描述

正则化和偏差、方差 Regulation and bias/variance

lambda和偏差、方差的关系：
lambda过大则会出现高偏差的问题，过小则会出现高方差的问题
在这里插入图片描述

正则化参数的选择，和theta的选择的过程一样，都是要用到训练集、验证集、测试集
在这里插入图片描述

图像关系
在这里插入图片描述

学习曲线 Learning curves

其实就是利用曲线去判断模型到底是具有高偏差、高方差还是两者都有在这里插入图片描述

高偏差
在这里插入图片描述

高方差
在这里插入图片描述

机器学习系统设计 Machine Learning system design

确定执行的优先级 Prioritizing what to work on ：Spam classification example

举了一个垃圾邮件分类的例子，起始就是讲了遇到一个机器学习问题，是有很多方法去改进其算法的。

误差分析 Error analysis

遇到一个机器学习问题时，不要一来就想着要做得多完善，而是先做一个简单粗暴的模型跑起来，即使这个模型有很多不足。这样的话可以快速发现算法的不足以及难以处理的数据
之后再用前一章学过的学习曲线去判断模型具有高方差还是高偏差问题，再去解决问题
之后再进行错误分析，看看分类出问题的实例都是有什么共同特征的在这里插入图片描述