深度学习笔记(3)：1.1-1.2 机器学习策略介绍

最新推荐文章于 2022-04-08 01:29:14 发布

起个名字好难.JPG

最新推荐文章于 2022-04-08 01:29:14 发布

阅读量319

点赞数

分类专栏：深度学习文章标签： ML strategy

本文链接：https://blog.csdn.net/kkkkkiko/article/details/81607724

版权

深度学习专栏收录该内容

23 篇文章 4 订阅

订阅专栏

接下来第三课开始介绍机器学习策略(ML strategy)。我自认为第三课是最重要的，相比于其他课程教会我们的是新的知识和原理，这节课交给我们的是从别的地方学习不到的经验，因为它教会了我们在建立机器学习系统时遇到特定问题该如何解决，条理清楚地直至最终建立机器学习系统，避免走弯路。

1.1 前言：为什么要学习机器学习策略？

这一小节主要告诉我们机器学习策略的重要性。举一个简单的例子，如下图所示：

假设我们的学习任务是希望预测出猫的图片，且目前准确率为90%，我们希望提高模型的准确率，有一些ideas或许可以帮助我们提高模型的准确率，如上图所示。也许我们的模型过拟合了，那我们可以收集更多的原始数据集；收集差异更大的图片，使数据分布更加准确；试一下一些正则化方法，比如dropout、二范数；试一下更小的神经网络。但模型也可能欠拟合，那我们可以试一下更深层的网络结构。当然也可能是梯度下降步数不够，或者我们改变一下优化算法能够提高模型精度，再有可能是神经网络的结构本来就有问题，需要我们改变一下激活函数或者改变一下隐藏节点数等。

可是这么多方法，我们该选择哪一种方法才能真正提高模型的精度呢？老师曾经见证过一个团队花费六个月的时间通过搜集数据来改善模型的精度，结果发现增加数据集并不能很好的提高模型准确率。

假设我们没有那六个月时间可以去浪费，那么判断哪些是值得一试的，哪些是可以放心舍弃的，就需要机器学习策略(ML strategy)。机器学习策略这节课是老师在深度学习项目中积累的经验，为了帮助我们大家提高效率，是独特于别的深度学习课程的。接下来，我们就来认真学一学机器学习策略吧。

1.2 正交化(orthogonalization)

建立机器学习系统的挑战之一是有太多东西可以改变了，比如1.1中提到的那么多可以采取的策略，且还有许多的超参数需要调试。什么情况下该使用什么样的工具正是机器学习策略要教会我们的事。

效率很高的机器学习专家有个特点，他们很清楚面对问题应采取的策略，且采取策略能得到的对应效果，我们称之为‘正交化’。正交化是什么意思呢？举个简单的例子如下图所示：

假设我们有一台老式电视机，上面有六个按钮可以帮助我们调试电视界面，这些按钮分别单独控制高度、宽度、左右移动、旋转以及梯形角度。注意，我们这里强调的是单独控制，这种情况我们称之为‘正交化’。相反，如果调控一个按钮可以使高度改变0.1、宽度改变0.3等如上图所示，即调控一个按钮能够使六个属性全部发生改变，这种情况就不叫正交化。

再来一个例子，比如开车。开车主要是方向盘、刹车和油门。方向盘控制方向，刹车和油门一起控制车速。在这里，控制方向的按钮和控制速度的按钮是相互独立的，即呈正交化。相反，若有一个按钮是同时改变方向和速度，如上图所示，那就不叫作正交化。

看到这，你或许已经明白，其实正交化指的就是一个按钮对应一种操作，也正是基于正交化，机器学习专家才能提高效率，因为他们很清楚面对问题要采取的策略，即要改变某一属性我应该使用哪一个按钮，且明白采取的策略所对应的效果。

其实在建立机器学习系统时，我们主要要达到的目标是4个，如下图所示：

首先是希望模型能在训练集上拟合得好，即训练误差低；然后，希望开发集误差低；接着，希望测试误差低；最后，希望在真实世界中效果好，比如用户对提供猫图片服务使用满意。

不同的目标有不同的实现方法。若模型在训练集上拟合效果不好，那我们可以采取的‘按钮’有加大训练网络、更换优化算法等，但要注意我们使用的‘按钮’不能同时影响其他目标，这样就会打破正交化。若模型在训练集上表现好了，但在开发集上表现不好，该怎么办呢？也许是过拟合了，可以通过正则化或加大训练集来改善开发误差。如果模型在测试集上表现不好呢？那可能就是开发集和测试集分布有差异，需要增大开发集。那如果在测试集上效果很好，但是在真实世界中却表现不好呢？那可能是开发集、测试集和真实世界数据分布有差异，需要改变开发集和测试集，甚至可能要改变损失函数。

老师个人不建议使用早停(early stopping)，因为根据早停的原理，停止训练既影响了模型在训练集上继续训练(可能造成训练不够后果)，也影响了测试集(有效防止过拟合)，等于一个操作引起两种反应，不符合我们正交化的原则。当然是用也是可以使用，但是如果我们有更多可以调试的正交化的操作，调试起来会更加方便。

同时，这里只是给个大概操作，后续课程会更加全面介绍问题及其对应操作。