理解人的表现( Understanding human-level performance)
假设你要观察这样的放射科图像,然后作出分类诊断,假设一个普通的人类,未经训练的人类,在此任务上达到 3%的错误率。普通的医生,也许是普通的放射科医生,能达到 1%的错误率。经验丰富的医生做得更好,错误率为 0.7%。还有一队经验丰富的医生,就是说如果你有一个经验丰富的医生团队,让他们都看看这个图像,然后讨论并辩论,他们达成共识的意见达到 0.5%的错误率。所以我想问你的问题是,你应该如何界定人类水平错误率?人类水平错误率 3%,1%, 0.7%还是 0.5%?
在这里,人类水平错误率的定义,就是如果你想要替代或估计贝叶斯错误率,那么一队经验丰富的医生讨论和辩论之后,可以达到 0.5%的错误率。我们知道贝叶斯错误率小于等于 0.5%,因为有些系统,这些医生团队可以达到 0.5%的错误率。所以根据定义,最优错误率必须在 0.5%以下。我们不知道多少更好,也许有一个更大的团队,更有经验的医生能做得更好,所以也许比 0.5%好一点。但是我们知道最优错误率不能高于 0.5%,那么在这个背景下,我就可以用 0.5%估计贝叶斯错误率。所以将人类水平定义为 0.5%。
为了发表研究论文或者部署系统,也许人类水平错误率的定义可以不一样,你可以使用 1%,只要你超越了一个普通医生的表现,如果能达到这种水平,那系统已经达到实用了。也许超过一名放射科医生,一名医生的表现,意味着系统在一些情况下可以有部署价值了。
在定义人类水平错误率时,要弄清楚你的目标所在,如果要表明你可以超越单个人类,那么就有理由在某些场合部署你的系统,也许这个定义是合适的。但是如
果您的目标是替代贝叶斯错误率, 那么这个定义( 经验丰富的医生团队——0.5%) 才合适。
我们来看一个错误率分析的例子。比方说,在医学图像诊断例子中,你的训练错误率是 5%,你的开发错误率是 6%。而在上一张幻灯片的例子中,我们的人类水平表现,我将它看成是贝叶斯错误率的替代品,取决于你是否将它定义成普通单个医生的表现,还是有经验的医生或医生团队的表现,你可能会用 1%或 0.7%或 0.5%。
无论你做出哪些选择,可避免偏差大概是 4%,如果你取 1%就是 4%, 如果你取 0.5%就是 4.5%, 而这个差距( 训练误差与开发误差之间的差值)是 1%。所以在这个例子中,我得说,不管你怎么定义人类水平错误率,使用单个普通医生的错误率定义,还是单个经验丰富医生的错误率定义或经验丰富的医生团队的错误率定义,这是 4%还是 4.5%,这明显比都比方差问题更大。所以在这种情况下,你应该专注于减少偏差的技术,例如培训更大的网络。
现在来看看第二个例子,比如说你的训练错误率是 1%,开发错误率是 5%,这其实也不怎么重要,这种问题更像学术界讨论的,人类水平表现是 1%或 0.7%还是 0.5%。因为不管你使用哪一个定义,你测量可避免偏差的方法是,如果用那个值,就是 0%到 0.5%之间,对吧?
那就是人类水平和训练错误率之前的差距,而这个差距是 4%,所以这个 4%差距比任何一种定义的可避免偏差都大。所以他们就建议,你应该主要使用减少方差的工具,比如正则化或者去获取更大的训练集。
比如你的训练错误率是 0.7%,所以你现在已经做得很好了,你的开发错误率是 0.8%。在这种情况下,你用 0.5%来估计贝叶斯错误率关系就很大。因为在这种情况下,你测量到的可避免偏差是 0.2%,这是你测量到的方差问题 0.1%的两倍,这表明也许偏差和方差都存在问题。但是,可避免偏差问题更严重。在这个例子中,我们在上一张幻灯片中讨论的是 0.5%,就是对贝叶斯错误率的最佳估计,因为一群人类医生可以实现这一目标。如果你用 0.7 代替贝叶斯错误率,你测得的可避免偏差基本上是 0%,那你就可能忽略可避免偏差了。实际上你应该试试能不能在训练集上做得更好。
如果你想理解偏差和方差,那么在人类可以做得很好的任务中,你可以估计人类水平的错误率,你可以使用人类水平错误率来估计贝叶斯错误率。所以你到贝叶斯错误率估计值的差距,告诉你可避免偏差问题有多大,可避免偏差问题有多严重,而训练错误率和开发错误率之间的差值告诉你方差上的问题有多大,你的算法是否能够从训练集泛化推广到开发集。
以前我们比较的是训练错误率和 0%,直接用这个值估计偏差。相比之下,在这个视频中,我们有一个更微妙的分析,其中并没有假设你应该得到 0%错误率,因为有时贝叶斯错误率是非零的,有时基本不可能做到比某个错误率阈值更低。所以在之前的课程中,我们测量的是训练错误率,然后观察的是训练错误率比0%高多少,就用这个差值来估计偏差有多大。而事实证明,对于贝叶斯错误率几乎是 0%的问题这样就行了,例如识别猫,人类表现接近完美,所以贝叶斯错误率也接近完美。所以当贝叶斯错误率几乎为零时,可以那么做。但数据噪点很多时,比如背景声音很嘈杂的语言识别,有时几乎不可能听清楚说的是什么,并正确记录下来。对于这样的问题,更好的估计贝叶斯错误率很有必要,可以帮助你更好地估计可避免偏差和方差,这样你就能更好的做出决策,选择减少偏差的策略,还是减少方差的策略。
对人类水平有大概的估计可以让你做出对贝叶斯错误率的估计,这样可以让你更快地作出决定是否应该专注于减少算法的偏差,或者减少算法的方差。这个决策技巧通常很有效,直到你的系统性能开始超越人类,那么你对贝叶斯错误率的估计就不再准确了,但这些技巧还是可以帮你做出明确的决定。