在这节课中,我们将了解评估医学模型的另一个非常重要的方面,即报告我们的评估中的可变性。
我们将研究如何使用置信区间来显示这种可变性。
假设一家医院有5万名病人,我们想知道我们的胸部x光模型对每个人的准确性。
如果我们能够运行这个模型并得到所有患者的ground truth,我们就能够得到模型在整个人群中的表现。
例如,假设我们以准确度为评估指标,当然也可能是任何其他指标。我们假设该模型在5万例患者中的准确度为0.78。这就是所谓的总体准确度。
BUT,我们根本不可能在所有人身上测试这个模型。因此,总体精度p是未知的。
问题是,我们能否通过使用一小部分患者样本来了解模型在人群中的表现如何?
假设我们从医院抽取了一百个病人。现在我们发现模型在100个病人上的精确度为0.8。我们能求出总体精度p的范围吗?
接下来通过置信区间求取这一范围
置信区间
置信区间允许我们说,使用我们的样本,我们有95%的信心,总体精确度p在区间[0.72,0.88]。0.72称为该区间的下限,0.88称为该区间的上限。
这些置信区间的计算超出了本课程的范围,但是理解它们的解释是很重要的。
当我们报告样本模型的精度时,我们报告的是平均值和置信区间。
这里的95%置信区间允许我们说,在95%置信区间,p在0.72,0.88之间。我们还没有看到95%的置信是什么。
95%的置信度并不是说有95%的概率p在区间内。它也没有说95%的样本精度在这个区间内。
对95%置信度的解释更为微妙,需要我们考虑重复取样。让我们深入研究一下。
假设我们能够多次从人群中抽取100名患者样本。每次我们得到不同的样本,因此样本的精确度也不同。
我们还可以计算与每个样本相关的置信区间。
我们可以在图上看这些样本。
- 图中圆点:表示每一个样本的精度,以及连接圆点的横线线表示样本置信区间的上下限。
- 中间黑色竖着的虚线(垂直线): 表示总体精度,对应的精度为0.78。
我们可以发现,大多数样本(横线)都包含总体精度。或者说,大部分横线都和中间的垂直线有交集。
具体地,7个样本中,有6个包含总体精度,一个不包含。95%的置信区间就是表示95%的样本将包含总体准确度。
百分之九十五是我们的信心水平。因此,95%置信度的解释是,在重复抽样中,这种方法产生的区间包括95%左右样本的总体准确度。
实际上,我们不计算许多样本集的置信区间。因为我们只有一个样本集。我们不可能去总体样本中抽好几个样本集。
对于我们的样本集,计算的置信区间可能包含也可能不包含 p 。但是,我们可以有95%的置信度。
影响置信区间宽度的因素之一是样本大小,置信区间的宽度由置信区间的上下限来表示。
假设我们从人群中提取了另一个样本,但这次是500个病人。这是我们上一个样本的5倍大。我们可以预期,我们使用大样本将更好的估计总体准确性。
我们可以看到,尽管模型在两个样本上的精确度都是0.8,但请注意,对于较大样本,置信区间更窄,而对于较小样本,置信区间更宽。因此,一个更大的样本给了我们一个更好的估计。
总而言之,置信区间是有用的。因为我们不能在整个人群中运行模型,我们至少可以使用样本的测试结果来表达我们非常确定总体准确性所在的范围。
祝贺您完成本周的模型评估。正如你所看到的,我们需要的不仅仅是准确性,才能正确地评估医学模型,因为我们关心的是准确地理解一个模型何时对患者有效,什么时候不起作用。
在本周的作业中,你将能够应用这些想法来更全面地评估你的胸部x光模型。
下周,我们将从医学图像分类跳到医学图像分割,在这一节中,您将从MRI数据构建一个脑肿瘤分割模型。到时候见。
文章持续更新,可以关注微信公众号【医学图像人工智能实战营】获取最新动态,一个关注于医学图像处理领域前沿科技的公众号。坚持已实践为主,手把手带你做项目,打比赛,写论文。凡原创文章皆提供理论讲解,实验代码,实验数据。只有实践才能成长的更快,关注我们,一起学习进步~
我是Tina, 我们下篇博客见~
白天工作晚上写文,呕心沥血
觉得写的不错的话最后,求点赞,评论,收藏。或者一键三连