Deeplearning深度学习

1.正交化

  搭建建立机器学习系统的挑战之一是,可以尝试和改变的东西太多太多了。包括,比如说,有那么多的超参数可以调。我留意到,那些效率很高的机器学习专家有个特点,他们思维清晰,对于要调整什么来达到某个效果,非常清楚,这个步骤我们称之为正交化。

    这是一张老式电视图片,有很多旋钮可以用来调整图像的各种性质,所以对于这些旧式 电视,可能有一个旋钮用来调图像垂直方向的高度,另外有一个旋钮用来调图像宽度,也许 还有一个旋钮用来调梯形角度,还有一个旋钮用来调整图像左右偏移,还有一个旋钮用来调 图像旋转角度之类的。电视设计师花了大量时间设计电路,那时通常都是模拟电路来确保每 个旋钮都有相对明确的功能。如一个旋钮来调整这个(高度),一个旋钮调整这个(宽度), 一个旋钮调整这个(梯形角度),以此类推。 相比之下,想象一下,如果你有一个旋钮调的是0.1𝑥表示图像高度,+0.3𝑥表示图像宽 度,−1.7𝑥表示梯形角度,+0.8𝑥表示图像在水平轴上的坐标之类的。如果你调整这个(其中 一个)旋钮,那么图像的高度、宽度、梯形角度、平移位置全部都会同时改变,如果你有这 样的旋钮,那几乎不可能把电视调好,让图像显示在区域正中。 所以在这种情况下,正交化指的是电视设计师设计这样的旋钮,使得每个旋钮都只调整 一个性质,这样调整电视图像就容易得多,就可以把图像调到正中。

 2.单一数字评估指标(Single number evaluation metric)

无论你是调整超参数,或者是尝试不同的学习算法,或者在搭建机器学习系统时尝试不 同手段,你会发现,如果有一个单实数评估指标,进展会快得多,它可以快速告诉你, 新尝试的手段比之前的手段好还是差。所以当团队开始进行机器学习项目时,我经常推荐他 们为问题设置一个单实数评估指标。

 我们来看一个例子,比如说对于你的猫分类器,之前你搭建了某个分类器𝐴,通过改变超参数,还有改变训 练集等手段,你现在训练出来了一个新的分类器𝐵,所以评估你的分类器的一个合理方式是 观察它的查准率(precision)和查全率(recall)。

 

 查准率和查全率的确切细节对于这个例子来说不太重要。但简而言之,查准率的定义是 在你的分类器标记为猫的例子中,有多少真的是猫。 所以如果分类器𝐴有 95%的查准率,这意味着你的分类器说这图有猫的时候,有 95%的 机会真的是猫。

  查全率就是,对于所有真猫的图片,你的分类器正确识别出了多少百分比。实际为猫的 图片中,有多少被系统识别出来?如果分类器𝐴查全率是 90%,这意味着对于所有的图像, 比如说你的开发集都是真的猫图,分类器𝐴准确地分辨出了其中的 90%。 所以关于查准率和查全率的定义,不用想太多。事实证明,查准率和查全率之间往往需 要折衷,两个指标都要顾及到。你希望得到的效果是,当你的分类器说某个东西是猫的时候, 有很大的机会它真的是一只猫,但对于所有是猫的图片,你也希望系统能够将大部分分类为 猫,所以用查准率和查全率来评估分类器是比较合理的。 但使用查准率和查全率作为评估指标的时候,有个问题,如果分类器𝐴在查全率上表现 更好,分类器𝐵在查准率上表现更好,你就无法判断哪个分类器更好。如果你尝试了很多不 同想法,很多不同的超参数,你希望能够快速试验不仅仅是两个分类器,也许是十几个分类 器,快速选出“最好的”那个,这样你可以从那里出发再迭代。如果有两个评估指标,就很难 去快速地二中选一或者十中选一,所以我并不推荐使用两个评估指标,查准率和查全率来选 择一个分类器。你只需要找到一个新的评估指标,能够结合查准率和查全率。 

 3.满足和优化指标

 要把你顾及到的所有事情组合成单实数评估指标有时并不容易,在那些情况里,我发现 有时候设立满足和优化指标是很重要的。

 假设你已经决定你很看重猫分类器的分类准确度,这可以是𝐹1分数或者用其他衡量准确 度的指标。但除了准确度之外,我们还需要考虑运行时间,就是需要多长时间来分类一张图。 分类器𝐴需要 80 毫秒,𝐵需要 95 毫秒,𝐶需要 1500 毫秒,就是说需要 1.5 秒来分类图像。

 

 可以这么做,将准确度和运行时间组合成一个整体评估指标。所以成本,比如说,总 体成本是𝑐𝑜𝑠𝑡 = 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 − 0.5 × runningTime,这种组合方式可能太刻意,只用这样的公 式来组合准确度和运行时间,两个数值的线性加权求和。 你还可以做其他事情,就是你可能选择一个分类器,能够最大限度提高准确度,但必须 满足运行时间要求,就是对图像进行分类所需的时间必须小于等于 100 毫秒。所以在这种情 况下,我们就说准确度是一个优化指标,因为你想要准确度最大化,你想做的尽可能准确, 但是运行时间就是我们所说的满足指标,意思是它必须足够好,它只需要小于 100 毫秒,达到之后,你不在乎这指标有多好,或者至少你不会那么在乎。所以这是一个相当合理的权衡 方式,或者说将准确度和运行时间结合起来的方式。实际情况可能是,只要运行时间少于 100 毫秒,你的用户就不会在乎运行时间是 100 毫秒还是 50 毫秒,甚至更快。

 通过定义优化和满足指标,就可以给你提供一个明确的方式,去选择“最好的”分类器。 在这种情况下分类器 B 最好,因为在所有的运行时间都小于 100 毫秒的分类器中,它的准 确度最好。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值