The BMJ研究:现有的新冠病毒诊断AI模型,几乎毫无用处

图片

图片出处:unsplash

本文作者:朱演瑞

新型冠状病毒对全球健康造成了严重的威胁,为了减轻医疗保健系统的负担,也给患者提供最佳的护理,高效的诊断和疾病预后信息问题亟待解决。

理论上来说,在医疗资源有限的情况下,评估感染者风险和感染结果的多变量模型可以帮助医务人员对患者进行分类。从基于规则的评分系统到深度学习模型,大量预测模型都是开源的,并允许同行评论分析。

那么,我们应该对这些模型抱有怎样的期待呢?

图片

顶级综合医学期刊《英国医学杂志》( The BMJ ) 上发表的一项研究,便对现有的新冠模型进行系统性评估,主要包括以下三种功用的模型:普通人群风险预测模型、实际感染者的诊断模型、新冠患者的预后模型,评估的部分包括模型开发和外部验证研究。

然而,结果却不尽人意。可以说,现有的新冠病毒诊断AI模型,几乎无用武之地。

收集过程

这支研究小组通过 Ovid、bioRxiv、medRxiv 、arXiv、PubMed 和 Embase 等学术系统,收集了 2020 年 1 月 3 日~2020 年 5 月 5 日之间发布的 covid-19 文献。如果一篇文献与基于新冠结果研究的多变量模型或评分系统相关,团队就将它纳入研究。

最终,他们收集到总共包括三种类型的预测模型:普通人群中新冠风险的预测模型、疑似患者中实际感染者的诊断模型、新冠患者的预后模型。预测因素或结果对参考人群(例如,住院病人,门诊病人或普通人群)、预测范围(模型预测的距离)没有限制。而另外的一些模拟疾病传播或死亡率、诊断测试准确性和发现预测指标等相关研究不予考虑。

从第二次系统性评估开始,相关文献由 AI 驱动的文本分析工具检索,以优先考虑灵敏度。研究者通过 EPPI-Reviewer 对标题、摘要和全文进行重复筛查,对于有争议的文章,则通过讨论选取。

研究使用基于 CHARMS(针对预测模型研究的系统评价的严格评估和数据提取)清单和 PROBAST(偏倚风险评估工具)的标准化数据分析表来评估预测模型。

通过系统搜索,研究者检索了 14209 个标题,整个筛选过程如下图所示:

图片

PRISMA(为系统评价和变换分析选取报告)研究是否采纳文献的流程图

调查结果

最终筛选出的 107 项研究,团队使用 PROBAST 评估,这是一项专门为预测模型偏倚风险设计的评估工具。

结果发现,有 53 项在训练集(参考人群)方面存在较高的偏倚风险,也就是说,模型的参考人群可能无法代表目标人群。其中 26 项研究都没有对偏倚评估风险作出清楚的报告。

有 15 项对预测集存在很高的偏倚风险,这表明预测变量并不一定适用于模型,定义不明确或受预测结果影响。

研究者对一项诊断成像研究使用了简单的评分规则,它呈现了较低的预测偏倚风险。

因为该文献缺乏有关预处理步骤(例如图像裁剪)的明确信息,而复杂机器学习算法是用一种复杂的方式将图像转换成预测因子,分析人员对原模型的预测因子尚不清楚,这其实就很难评估它的偏倚风险。大多数模型使用易于评估的结果(例如,死亡、确诊等),而在 19 项研究中仍存在因结果评估引起的偏倚的担忧,比如使用了主观或代理结果(例如,非新冠的严重呼吸道感染)。

除了一项研究之外,所有其他研究在分析的数据集上都有较高的偏倚风险。

许多研究的样本量较小,这导致过拟合的风险增加,尤其是在使用复杂的建模策略的情况下。三项研究没有报告模型的预测性能,四项研究仅报告了表面性能(训练集和测试集相同,未对潜在的过度拟合进行调整)。

只有 13 个研究评估了校准,但两项研究中检查校准的方法可能欠佳。

其中一个研究的 25 个模型使用了外部验证的方式(在一个独立的数据集中验证,训练集和测试集分开),但在其中的 11 个模型中,用于外部验证的数据集可能无法代表目标人群。还有一个研究使用了新冠疫情之前的数据。因此,如果将模型应用于目标人群,则预测效果可能会有所不同。在一项研究中,通常用于预后(区分、校准)的性能统计数据没有公布。

但也有表现还不错的模型。Gozes、Fu、Chassagnon、Hu、Kurstjens 和 Vaid 等人的研究在外部验证集上具有令人满意的预测性能,但尚不清楚他们是如何收集外部验证数据的,以及数据是否具有代表性。Wang、Barda、Guo、Tordjman 和 Gong 等人的研究在可能没有偏倚的验证数据集上获得了令人满意的效果,但是数据集的数据量少于外部验证应有的数据量(100)。Diaz-Quijano 的研究也具有不错的外部验证效果,但由于未进行聚合酶链反应(PCR)测试,因此数据集中的许多患者不得不被排除在外。

目前,社会可能亟需诊断和预后模型来帮助医务人员更加快速有效地投入工作,这也许会促使政府和医疗机构过早地实施预测模型。

但介于所有的 145 个预测模型都有很大的偏倚风险,并且所有模型都缺乏外部验证的证据,在新冠疫情的大背景下,模型的过早使用可能弊大于利。

因此,研究人员不建议目前在实践中使用任何模型。

他们也推荐,未来的模型研究应侧重于验证、比较、改进和更新有前途的可用预测模型,而非着力开发新的预测模型。

Reference:
https://www.bmj.com/content/369/bmj.m1328.long

关于数据实战派

数据实战派希望用真实数据和行业实战案例,帮助读者提升业务能力,共建有趣的大数据社区。

图片

已标记关键词 清除标记
课程简介: 历经半个多月的时间,Debug亲自撸的 “企业员工角色权限管理平台” 终于完成了。正如字面意思,本课程讲解的是一个真正意义上的、企业级的项目实战,主要介绍了企业级应用系统中后端应用权限的管理,其中主要涵盖了六大核心业务模块、十几张数据库表。 其中的核心业务模块主要包括用户模块、部门模块、岗位模块、角色模块、菜单模块和系统日志模块;与此同时,Debug还亲自撸了额外的附属模块,包括字典管理模块、商品分类模块以及考勤管理模块等等,主要是为了更好地巩固相应的技术栈以及企业应用系统业务模块的开发流程! 核心技术栈列表: 值得介绍的是,本课程在技术栈层面涵盖了前端和后端的大部分常用技术,包括Spring Boot、Spring MVC、Mybatis、Mybatis-Plus、Shiro(身份认证与资源授权跟会话等等)、Spring AOP、防止XSS攻击、防止SQL注入攻击、过滤器Filter、验证码Kaptcha、热部署插件Devtools、POI、Vue、LayUI、ElementUI、JQuery、HTML、Bootstrap、Freemarker、一键打包部署运行工具Wagon等等,如下图所示: 课程内容与收益: 总的来说,本课程是一门具有很强实践性质的“项目实战”课程,即“企业应用员工角色权限管理平台”,主要介绍了当前企业级应用系统中员工、部门、岗位、角色、权限、菜单以及其他实体模块的管理;其中,还重点讲解了如何基于Shiro的资源授权实现员工-角色-操作权限、员工-角色-数据权限的管理;在课程的最后,还介绍了如何实现一键打包上传部署运行项目等等。如下图所示为本权限管理平台的数据库设计图: 以下为项目整体的运行效果截图: 值得一提的是,在本课程中,Debug也向各位小伙伴介绍了如何在企业级应用系统业务模块的开发中,前端到后端再到数据库,最后再到服务器的上线部署运行等流程,如下图所示:
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页