吴恩达深度学习笔记之结构化机器学习(一)

1.1 机器学习策略(ML Strategy)

我们在训练深度学习网络的时候,有一下一些策略,提高我们的网络性能。如下图所示:

这里写图片描述

1.2 正交化(Orthogonalization)

要弄好一个监督学习系统,我们需要调我们的系统旋钮确保四件事情。如下所示:

这里写图片描述

第一:确保在训练集上的结果不错,我们可以通过训练更大的网络,或者选择更好的优化算法。
第二:确保在开发集上不错,我们可以通过正则化或者数据扩充来解决开发集上的问题。
第三:确保在测试集上也不错,我么可以通过一个旋钮来增大开发集。
第四:我们希望成本函数的表现也可以,可以通过调整开发集或者改变成本函数。

1.3 单一数字评估指标(single number evaluation metric)

评估我们的分类器的一个合理方式是观察分类器的查准率和查全率。我们以一个猫分类器为例:

这里写图片描述

查准率(Precision):比如在我的分类器中标记为猫的例子中,有多少真的是猫,如果分类器A的有95%的查准率,这意为着我们的分类器说这图有猫的时候,有95%的机会真的是猫。
查全率(Recall):对于所有真猫的图片,我们的分类器正确识别出了多少百分比,实际为猫的图片中,有多少被系统识别出来。
事实证明,查准率和查全率之间往往需要折中,两个指标都要顾及到。所以我们有一个结合查全率和查准率的标准方法就是所谓的 F1 分数:

F1=21P+1R

我们称之为查准率和查全率的调和平均数。
还有一个分类器的平均误差也可以作为作为单实数评估指标。
实验证明,利用单实数评估指标真的可以提高我们的效率。

1.4 满足和优化指标

我们可以这样做将准确度和运行时间结合成一个整体评估指标,
我们以下述一个例子为例:

这里写图片描述

上述是三个分类器的指标,我们需要根据某些指标选择最适合我们的一个分类器,此时我们可以重新定义成本函数,如下。

cost=accuracy0.5×runingTime

根据这样一个成本函数我们来选择最优分类器。
其次,我们可能选择一个分类器A能够最大限度提高准确率,单必须满足时间要求,此时我们说。准确度为优化指标,而运行时间为满足指标。通过提供满足和优化指标,就可以给我们提供一个明确的方法去选择“最好的”分类器。

1.5 为什么是人的表现

我们首先来看下面一张图:

这里写图片描述
蓝色是人类的准确率,绿色是贝叶斯理论最佳准确率,而紫色是机器学习的准确率,我们可以知道,当机器学习的准确率接近人的表现后,就很难继续上升了。
下面我们看看为什么是与人的表现,下面这张幻灯片解释了原因。
这里写图片描述

1.6 可避免偏差

我们以下图为例,简单介绍一下什么是可避免偏差。

这里写图片描述

我们以人类的标准为基准。一般人类的误差接近于贝叶斯最优误差。训练集的误差与人类的误差的差距我们称之为可避免偏差。训练集误差和开发集误差之差我们称之为可避免方差。就是这样。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值