放射组学研究评估清单:分步报告指南

 即使放射组学在支持临床决策方面具有巨大潜力,其当前的使用主要限于学术研究,而不是常规临床实践中的应用。放射组学的工作流程由于多个方法学步骤和细微差别而复杂,这通常导致报告和评估不充分,以及可重复性差。现有的人工智能和预测建模报告指南和清单包括相关的良好实践,但它们并不专门针对放射组学研究。对于研究规划、手稿撰写和审查过程中的评估,有一个完整的放射组学清单的需求是明确的,以促进研究的可重复性和可再现性。我们在此提出一个放射组学研究的文档标准,可以指导作者和审稿人。我们的动机是提高放射组学研究的质量和可靠性,进而提高其可重复性。我们将这个清单命名为CLEAR(放射组学研究评估清单),以传达更加透明的理念。CLEAR清单包含58个项目,应被视为提供临床放射组学研究呈现的最低要求的标准化工具。除了清单的动态在线版本外,还建立了一个公共存储库,允许放射组学社区对清单项目进行评论,并为未来版本调整清单。我们希望由国际专家组使用修改后的德尔菲方法准备和修订的CLEAR清单,能够作为一个单一且完整的科学文档工具,帮助作者和审稿人改进放射组学文献。本文发表在Insights into Imaging杂志。可添加微信号1996207406318983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群)

关键点:

      放射组学的工作流程复杂,包含多个方法学步骤和细微差别,这通常导致可重复性、报告和评估不足。

      CLEAR清单提出了一个单一的放射组学研究文档标准,可以指导作者,提供呈现临床放射组学研究的最低要求。

      CLEAR清单旨在包括所有必要项目,以支持审稿人评估与放射组学相关的手稿。

引言

      放射组学是对医学影像的处理,使用由此产生的定量数据来进行临床决策[1]。在医学期刊上已经发表了大量关于放射组学的文章,近年来呈指数级增长[2, 3]。尽管放射组学可能对支持临床决策具有巨大潜力,但其当前的使用主要限于学术研究,对日常临床实践几乎没有影响[4, 5]。这种转化差距的原因有很多,例如与稳健性、可重复性、标准化、数据集设计、度量选择和代码可用性相关的挑战[6,7,8]。然而,理解这些障碍的主要瓶颈在于,由于报告不佳,放射组学研究中究竟做了什么的信息在很大程度上无法获取[9]。

      只有少数已发表的放射组学研究的应用可以被复制[10, 11]。放射组学流程的工作流程复杂,因为有多个步骤和细微差别,这可能导致报告不充分,从而无法复制发现[5, 12,13,14]。研究方法和发现的不清晰和不完整的报告限制了其关键评估,以及有效传播[15]。放射组学研究出版物的作者必须详细描述方法论,并提供补充数据、代码和模型,以使读者能够复制结果[16]。

      报告清单和指南有潜力提高报告的质量,进而提高研究的整体质量[17, 18]。目前,没有一个专门关注放射组学的单一清单,涵盖适用于作者和审稿人的研究和评估过程的所有方面。迫切需要严格的放射组学报告指南,以使该领域成熟[19,20,21]。这样一个新清单的潜在好处将在用户(例如,作者、研究人员和审稿人)和期刊之间平均分配。用户将能够向读者提供更可靠的科学信息。出版商将从提高其期刊的可信度中受益,通过提高放射组学出版物的严谨性。

       我们在这项工作中的目的是为放射组学研究开发一个单一的文档标准,可以指导作者和审稿人。我们的动机是提高已发表的放射组学研究的质量、可靠性,进而提高其可重复性。为此,我们提出了CLEAR清单,即放射组学研究评估清单(表1),应在每次手稿提交时包含。

表1 放射组学研究评估清单(CLEAR清单)

图片

图片

是的,提供了详细信息;否,未提供详细信息;n/e,非必需;n/a,不适用 

注意:结合主文本使用清单,以阐明所有项目。在“页面”栏中填写提供相关信息的页面号。

关于CLEAR清单

开发 

      该清单由主要作者设计,考虑了文献中的先前努力,并随后由所有其他具有放射组学、深度学习和统计学专业知识的国际合著者进行了修订。在最终选择项目时,还使用了修改后的德尔菲方法(有关所有方法学细节和结果,请参见附加文件1:S1)。

       我们将该清单命名为CLEAR(放射组学研究评估清单),以传达更加透明的理念。它包括58个项目,提供了呈现临床放射组学研究的最低要求。其中,56个项目是“必需”项目。另一方面,剩余的2个(项目#53和项目#58)应被视为“推荐”项目。

还提出了一个简化版本,包含43个项目,称为CLEAR-S(CLEAR清单的简化版本),仅包括可用于未来系统评审的方法学质量项目。

如何使用 

      我们建议在主文本旁边使用清单(表1),以确保记录每个清单项目。附加文件2:S2(无解释)、附加文件3:S3(带解释)、附加文件4:S4(CLEAR-S无解释)和附加文件5:S5(CLEAR-S带解释)允许用户下载清单。

       我们强烈建议使用在线版本的清单。它可以轻松填写,并导出为PDF以作为补充提交。在线版本具有用户友好的设计,防止用户回到论文的主体部分查找项目的解释。包含43个项目的简化版本(CLEAR-S)也可以通过同一链接访问。一旦将来更新了清单,同一链接将始终提供更新版本,而旧版本可以通过CLEAR清单的存储库访问。

如何贡献 

      我们希望CLEAR清单能够激发对所提项目的讨论。我们鼓励放射组学社区向我们提供关于如何在未来版本中改进这个清单的看法。为了使CLEAR清单成为一个在线的活动或动态文档,已经为社区建立了一个公共存储库,以便对清单进行评论和贡献。

       我们更新指南的政策如下:i, 评估社区反馈;ii, 更新的小组讨论;iii, 小

组成员投票;iv, 最终更新指南。

使用的术语 

       为了保持一致性,此清单使用以下术语。术语“训练集”和“验证集”分别用于算法训练和调整的数据分区。术语“测试集”用于模型内部验证的数据(即,来自与训练或验证集相同的机构的数据)或外部验证的数据(即,来自不同机构的独立数据)。 “实例”用于指示单个数据元素(例如,病变、肿瘤或患者)。

CLEAR清单的项目 

标题

       项目#1. 相关标题,指定放射组学方法。在标题中指明放射组学的使用。以下细节也可以考虑在标题中指定:放射组学技术(例如,手工制作、工程化、深度、增量等)、模态(例如,计算机断层扫描[CT]、磁共振成像[MRI]、超声)、扫描的重要方面(例如,未增强、动态)、机器学习的使用(例如,基于机器学习的)、外部验证和多中心设计。

摘要 

       项目#2. 结构化摘要,包含相关信息。提供研究目的、方法、结果和结论的结构化摘要,仅呈现与研究目的直接相关的最重要方面。摘要应该能够独立于主文本理解。考虑到期刊的提交指南,建议指定以下项目:基线特征(例如,患者、扫描、图像、类别数量)、数据来源(例如,公共、机构)、研究性质(例如,前瞻性、回顾性)、分割技术(例如,自动、半自动或手动)、特征提取技术(例如,手工制作、工程化、深度)、降维技术(例如,特征选择、可重复性分析、多重共线性)、建模细节(例如,算法/模型)、验证技术(例如,交叉验证)、未见测试(内部保留、外部测试)、模型性能指标(例如,曲线下面积)及不确定性度量(例如,置信区间)、最终特征集数量、传统统计方法及p值,以及开放科学状态(例如,数据、代码和/或模型的公共可用性)。

关键词 

       项目#3. 与放射组学相关的关键词。列出指示(例如,放射组学、纹理分析)和描述放射组学研究的主要关键词(例如,机器学习、深度学习、计算机断层扫描、磁共振成像、可重复性),除非期刊要求专门使用某些术语(例如,MeSH术语,目前还不包括特定于放射组学的术语)。

引言部分

       项目#4. 科学或临床背景。用相关文献和知识差距的总结定义科学或临床问题,包括对当前知识状态的简短回顾。描述为什么科学问题在技术上或临床上重要。

        项目#5. 使用放射组学方法的理由。描述为什么考虑使用放射组学方法。需要描述目前使用方法的性能和问题方面。提及放射组学方法将如何解决这些问题。明确说明放射组学如何考虑研究问题而影响临床实践。

       项目#6. 研究目标。描述研究的目的,同时关注科学问题。提及对当前文献的预期贡献。

方法部分

研究设计 

       项目#7. 遵守指南或清单(例如,CLEAR清单)。指出使用了CLEAR清单进行报告,并将清单作为补充数据提交。如果除了CLEAR清单外还使用了其他清单或指南,也要做同样的事情。

      项目#8. 伦理细节(例如,批准、同意、数据保护)。描述伦理问题,以确保研究得当进行。提供有关伦理批准、知情同意和数据保护(例如,去标识化)的信息,如果数据来自私人来源。

      项目#9. 样本量计算。描述在研究前或后如何确定样本量或统计功效(例如,样本量/功效计算,基于可用性)。

     项目#10. 研究性质(例如,回顾性、前瞻性)。指出研究是前瞻性还是回顾性,以及是病例/对照还是队列等。在前瞻性研究的情况下,如果有的话,提供注册细节。

      项目#11. 适格标准。首先定义纳入标准。然后,指定排除标准。通过使用纳入标准的相反内容作为排除标准,避免重复。指定选择过程(例如,随机、连续)。将适格的数字细节保留在结果中。

     项目#12. 技术流程图。提供一个流程图,总结研究中的关键方法学步骤。由于放射组学方法的复杂性,这样的流程图有助于读者更好地理解方法论。

数据

      项目#13. 数据来源(例如,私有、公共)。说明数据来源(例如,私有、公共、混合[私有和公共])。明确指出在不同数据分区中使用的数据来源。如果来源是公共的,请提供网站链接和参考文献。如果使用公共数据,请作为补充提供图像或患者标识符。

       项目#14. 数据重叠。说明数据集的任何部分是否在之前的出版物中使用过。描述当前研究与以前研究在研究目的和方法学方面的差异。

       项目#15. 数据分割方法。描述数据如何分割为训练集、验证集和测试集。提及创建了多个分割(例如,k折交叉验证或自助法)。指定分配是如何完成的(例如,随机、半随机、手动、中心方式、按时间顺序)。指出每个分区的比例,包括类别比例。描述数据分割的级别(例如,按患者、按图像、按研究、按扫描仪、按机构)。明确说明采取的措施以避免数据集之间的信息泄露(例如,在特征标准化、特征选择、超参数优化和模型训练之前创建保留测试集)[23]。注意,任何测试数据应仅用于评估最终模型一次,以防止过于乐观的偏差。声明数据分区之间的系统差异。

       项目#16. 成像协议(即图像获取和处理)。提供成像协议和获取参数以及后处理细节。定义物理像素和体素尺寸。明确说明使用的是单个、多个还是不同的扫描仪,以及每种协议的实例数量。如果使用了对比剂,定义相位的时间。如果进行了患者准备(药物给药、扫描前血糖控制等),请说明。

       项目#17. 非放射组学预测变量的定义。描述作为非放射组学预测因子出现的数据元素。非放射组学变量可能是人口统计特征(例如,年龄、性别、种族)、广泛使用的传统实验室生物标志物(例如,癌胚抗原)或日常临床实践中使用的传统方法(例如,放射科医生的定性阅读、Hounsfield单位评估、固体肿瘤反应评估标准[RECIST]、神经肿瘤学反应评估[RANO]标准)。了解这些预测因子是如何确定的(例如,基于文献回顾)会很有帮助。如果适用,描述预测因子的任何转换(例如,连续预测因子的二值化、分类变量水平的分组)。

       项目#18. 参考标准的定义(即结果变量)。描述放射组学方法将预测的参考标准或结果度量(例如,病理分级、组织病理学亚型、基因标记、局部-区域控制、生存等)。提供选择参考标准的理由(例如,更高的可重复性率)。明确说明参考标准的可重复性问题、潜在偏见和局限性。

分割 

       项目#19. 分割策略。指明用于分割或标注的软件程序或工具。指定软件的版本和确切的配置参数。提供软件的参考和网站链接。描述分割方法(例如,自动、半自动、手动)。提供分割的规则(例如,从可见轮廓的边缘收缩或扩张,包括/排除区域)。提供图形以展示分割风格。如果分割用于多模态(例如,CT和MR)、多相(例如,未增强、动脉期、静脉期CT)或多序列(例如,T2加权、增强后T1加权、扩散加权成像)分析,则提供图像配准细节(例如,软件、版本、链接、参数)。如果从单层2D图像中提取放射组学特征,请解释选择该层的标准。在多个病变的情况下,解释是否对所有病变进行了分割,并描述如何聚合特征值。如果只选择一个病变,请描述标准(例如,原发性或体积最大的)。

       项目#20 执行分割的操作者细节。说明有多少分割执行人员执行了分割,以及他们的经验。在多个分割者的情况下,描述如何实现最终形式的分割(例如,分割者共识、分割交集、独立分割以进行进一步的可重复性分析、来自众多专家评估者的连续细化直至收敛),这对训练数据尤其重要,因为测试数据上的分割过程应尽可能接近临床实践,即单个分割者的分割。

       预处理 项目#21. 图像预处理细节。指明用于预处理的软件程序或工具。指定软件的版本和确切的配置参数。如果可用,提供软件的参考和网站链接。描述应用于图像的所有预处理技术及其相关参数,包括标准化(例如,最小-最大标准化、标准化、对数转换、偏置场校正)、去噪、去颅(也称为脑提取)、插值以创建统一图像(例如,在切片厚度方面)、标准化摄取值转换和配准。还要说明是否使用了基于图像或特征的协调技术。

      项目#22. 重采样方法及其参数。指定应用于像素或体素的重采样技术(例如,线性、立方B样条)。提供重采样后的物理像素和体素尺寸。

     项目#23. 离散化方法及其参数。指定用于手工制作的放射组学特征提取的离散化方法(例如,固定箱宽、固定箱数方法或直方图均衡化)。报告使用特定离散化技术的理由。对于固定箱数方法,指明灰度级数,对于固定箱宽方法,指明箱宽以及第一级别的值(或最小和最大界限)。声明使用不同离散化方法和值的任何实验细节。

     项目#24. 图像类型(例如,原始、过滤、转换)。提供提取放射组学特征的图像类型,例如原始图像或带有卷积滤波器的图像(例如,高斯拉普拉斯边缘增强、小波分解)[24]。还要提供转换图像类型的参数细节(例如,高斯拉普拉斯滤波的sigma值)。

特征提取 

      项目#25. 特征提取方法。指明用于放射组学特征提取的软件程序或工具。指定软件的版本和确切的配置参数(另见项目#55)。提供软件的参考和网站链接。指明软件是否符合IBSI的基准/认证[25]。指定一般特征类型,如深度特征、手工制作特征、工程化特征或组合。引用手工制作和工程化特征的数学公式。如果引入了新的手工制作特征,请提供公式和代码。提供深度特征提取的架构细节。提供进行的任何特征工程的细节。指定放射组学特征是在二维(2D)平面、2D三平面还是三维(3D)空间中提取的。如果从3D分割中提取2D特征,请提供原因(例如,大切片厚度),说明为什么采用这种方法。

      项目#26. 特征类别。提供放射组学特征类别(例如,形状、一阶、灰度共生矩阵)。使用IBSI术语表示特征类别[25]。指定每个特征类别的特征数量。如果排除了任何特征类别,请说明原因。

      项目#27. 特征数量。指明每个实例的特征总数。如果适用,提供每种成像方式及其组成部分的特征数量(例如,CT的相位,MRI的序列等)。

      项目#28. 剩余参数的默认配置声明。在提供所有修改过的预处理和放射组学特征提取参数后,明确声明所有其他参数保持默认配置。

数据准备 

       项目#29. 缺失数据的处理。说明研究中是否存在缺失数据,以及缺失数据的数量。如果有,提供处理缺失数据的详细信息(例如,删除、替换或插补)。

      项目#30. 类别不平衡的细节。根据参考标准,指明类别的平衡状态。提供处理类别不平衡的详细信息。指定用于实现类别平衡的技术(例如,合成少数过采样、通过复制的简单过采样、欠采样)。明确说明这些数据增强和欠采样策略仅应用于训练集。

      项目#31. 分割可靠性分析的细节。描述进行的可靠性分析,以评估分割差异的影响。在手动和半自动方法中必须考虑内部和外部评估者的可重复性分析。提供用于可靠性分析的统计测试的详细信息(例如,类别内相关系数及其类型)[26]。提及评估的独立性。明确说明可靠性分析仅使用训练集进行。

      项目#32. 特征缩放细节(例如,标准化、归一化)。如果适用,描述应用于放射组学特征数据的标准化技术(例如,最小-最大标准化、标准化、对数转换、ComBat标准化[批次选择、参数化与否、是否使用经验贝叶斯])。指定标准化尺度。强调此程序应用于训练集中的数值放射组学特征数据,而不是图像,并且独立应用于验证集和测试集。

     项目#33. 降维细节。如果适用,指定使用的降维方法(例如,共线性分析、可重复性分析、基于算法的特征选择)。提供使用的统计方法的详细信息。例如,提供每个步骤的相关统计截止值(例如,类内相关系数 ≤ 0.9的特征被排除)。明确说明降维是使用训练集进行的。指定如何实现最终特征数量,例如,每个实例最多十个特征的“经验法则”。

建模 

      值得注意的是,放射组学并不一定与机器学习或传统建模相结合。当特征数量较少时,传统的推断统计学也是一个选项。

      项目#34. 算法细节。提供用于建模的软件程序或包的名称和版本。如果可用,引用软件的相关出版物。指定用于创建模型的算法,包括输入、输出和所有中间组件的架构细节。架构的描述应完整,以便其他研究人员进行精确复制(另见项目#55和项目#56)。当使用先前描述的架构时,引用先前的工作并指定任何修改。如果最终模型涉及算法的集成,请指定集成的类型(例如,堆叠、多数投票、平均等)。

       项目#35. 训练和调优细节。详细描述训练过程。指定增强技术、训练的停止标准、超参数调优策略(例如,随机、网格搜索、贝叶斯)、调优中使用的超参数值范围、优化技术、正则化参数和模型参数的初始化(例如,随机、迁移学习)。如果应用了迁移学习,请明确说明哪些层或参数被冻结或受影响。

      项目#36. 混杂因素的处理。描述用于检测潜在混杂因素的方法(例如,有向无环图),例如队列间肿瘤大小的差异、不同的图像获取参数(如切片厚度)以及一级和二级医院患者群体之间的差异[27, 28]。请描述如何处理混杂因素(例如,协变量调整)。

      项目#37. 模型选择策略。描述如何选择最终模型。这些的两大类别是概率性的(例如,赤池信息准则、贝叶斯信息准则)和重采样方法(例如,随机训练-测试分割、交叉验证、自助验证)[12, 29]。明确说明仅使用训练集和验证集进行模型选择。说明是否在选择中考虑模型复杂性,例如“唯一标准误差规则”[30]。指定用于选择最终模型的性能指标。

评估

      项目#38. 测试技术(例如,内部、外部)。明确说明模型是内部测试还是外部测试。术语“外部测试”仅应用于涉及使用不同机构数据的过程。在进行外部测试的情况下,指定提供数据的站点数量,并进一步说明它们是用于多次测试还是单次测试。描述数据特征,并说明训练、验证、内部测试和外部测试数据集之间是否存在差异(例如,不同的扫描仪、不同的分割读者、不同的种族)。再次注意,任何测试数据应仅用于一次评估,以防止性能指标估计产生偏见。

      项目#39. 性能指标及选择理由。指定用于评估模型预测能力的性能指标。根据数据的特征(例如,类别不平衡)来证明所选指标。注意潜在的陷阱,并在选择适当的性能指标时遵循建议[7, 31]。

      项目#40. 不确定性评估和度量(例如,置信区间)。描述不确定性评估(例如,稳健性、敏感性分析、适用时的校准分析)和不确定性量化的度量(例如,置信区间、标准偏差)。

      项目#41. 统计性能比较(例如,DeLong测试)。指定使用的统计软件和版本。指明用于比较模型性能的方法,如DeLong测试[32, 33]、McNemar测试[34]或贝叶斯方法[35]。提供比较的统计阈值(例如,p < 0.05),如果适用于该方法或指标,还应提供置信区间。同时,说明在比较多个模型时是否考虑并纠正了多重性(例如,p值调整、Bonferroni校正、假发现率)。报告用于将数据分组进行统计测试的阈值(例如,接收者操作特征[ROC]曲线上的操作点以定义混淆矩阵,以及定义生存分析中分层的截止值)。

       项目#42. 与非放射组学和组合方法的比较。指明是否进行了与非放射组学方法(例如,临床参数、实验室参数、传统放射学评估)的比较。非放射组学方法也可以与放射组学数据结合(例如,临床-放射组学评估)。解释如何评估临床效用,例如通过决策曲线分析[36]。

      项目#43. 可解释性和解释方法。如果适用,描述用于提高所创建模型的可解释性和解释性的技术[37]。可以提供与所提出的放射组学模型的可解释性和解释性相关的图形(例如,类激活图、特征图、SHapley Additive exPlanations、累积局部效应、偏依赖图等)。

结果部分

       项目#44. 基线人口统计学和临床特征。以文本和/或表格形式提供基线人口统计学、临床和成像特征。分别为训练、验证(即交叉验证)和测试数据集报告信息,以及基于参考标准或非放射组学变量的分组。还应提供相关的统计测试,以确定这些集合是否相同。提供是否检测到任何混杂因素并适当处理。

       项目#45. 适格标准流程图。提供一个总结适格标准的流程图,包括纳入和排除的实例数量。如果涉及多个数据来源,请分别提供每个来源的详细信息。

       项目#46. 特征统计(例如,可重复性、特征选择)。提供所选特征的统计信息(例如,基于结果变量的特征分布),以纳入模型。提供可重复特征的名称和数量(例如,对于分割可重复性,对于图像扰动的可重复性)。创建一个表格,包含所选特征的名称、类别和图像类型的详细信息。同时,提供可重复性统计结果。所选特征的可重复性指标可以在表格或补充文件中呈现。可以提供特征的描述性摘要的图形(例如,箱线图、相关矩阵、特征重要性图)和表格。

       项目#47. 模型性能评估。分别为训练、验证(例如,多重分割如交叉验证、自助法等)和未见测试数据提供性能指标。在文本中给出最重要发现的总结。同时提供“无信息率”。细节可以在图形(例如,ROC曲线、精确度-召回曲线)和表格中提供。提供校准统计图形以展示模型性能的稳健性是一个好习惯。提供额外的图形来展示真实和错误预测的示例,以帮助读者更好地理解所提策略的优势和局限性。

       项目#48. 与非放射组学和组合方法的比较。在文本中给出放射组学方法与非放射组学(例如,视觉分析、仅临床参数)或组合方法的比较结果,并最好在表格中呈现。分别为训练、验证和测试数据提供结果。提供不确定性度量(例如,置信区间、标准偏差等)和具有p值的统计比较结果。还必须提供混淆矩阵。除了预测性能外,指明哪个模型在临床效用方面优于其他模型。临床效用可以通过决策曲线分析呈现。对于决策曲线分析,根据最佳概率阈值量化净效益,并提供与不同临床观点相关的多个切点。还要提供为何特定阈值可能合适的理由,并明确说明全有和全无策略的含义。

讨论部分

       项目#49. 重要发现概述。提供工作总结和最重要发现的概述。无需统计信息。尝试将研究归入以下类别之一:概念验证评估、技术特定任务评估、临床评估和部署后评估[38]。总结对文献的贡献。

       项目#50. 与当前研究不同的先前工作。提供最重要和最相关的先前工作。提及当前研究与先前工作之间最显著的差异。

       项目#51. 实际意义。总结结果的实际意义。描述工作对该领域的主要影响。强调研究的潜在临床价值和作用。讨论可能阻碍研究成功转化为现实世界临床实践的任何问题。同时,提供未来期望和可能的下一步行动,其他人可能会在当前工作的基础上构建。

       项目#52. 优势和局限性(例如,偏见和普适性问题)。明确说明当前工作的优势和局限性。应声明可能导致潜在偏见、不确定性、可重复性、稳健性和普适性问题的任何问题。

开放科学 

数据可用性 

       项目#53. 共享图像及分割数据。(请注意,此项为“非必需”但“推荐”。)考虑到所涉及机构的监管限制,提供相关的原始或处理后的图像数据。除非分割是作为工作流程的一部分完成,否则也可以共享分割数据。在无法共享整个数据集的情况下,对代表性样本或具有类似特征的公共数据集应用的端到端分析工作流程可以帮助读者复制分析的关键组成部分[39]。如果数据不可用,也请说明原因。

      项目#54. 共享放射组学特征数据。如果可能的话(即符合机构的监管限制),与公众共享选定的放射组学特征数据及临床变量或标签。如果放射组学特征数据不可用,请说明原因。

代码可用性 

       项目#55. 共享预处理脚本或设置。共享预处理和特征提取参数脚本或设置(例如,PyRadiomics中的YAML文件或完整的文本描述)。如果脚本格式不可用,则可以将软件程序中出现的参数配置以截图形式共享。

       项目#56. 共享建模源代码。共享建模脚本[40]。代码脚本应包含足够的信息来复制所呈现的分析(例如,训练和测试流程),包括所有依赖项和相关注释,以便于理解和构建方法。即使实际使用的输入数据集无法共享,在公开可用类似数据集的情况下,应使用它来共享包含所有预处理和后处理步骤的示例工作流程。如果源代码不可用,请说明原因。

模型可用性

       项目#57. 共享最终模型文件。共享用于内部或外部测试的最终模型文件[40]。描述如何准备输入数据以使用模型。还应包括用于预处理输入数据的源代码。如果最终模型数据不可用,请说明原因。

       项目#58. 共享即用型系统。(请注意,此项为“非必需”但“推荐”。)可以创建并共享一个易于使用的工具(例如,独立可执行应用程序、笔记本、网站、虚拟机等),无论是否基于所创建的模型提供源代码[40]。主要目的是能够由其他研究团队测试或验证模型。通过这种方法,即使没有机器学习或编码经验的用户也可以测试所提出的模型。

讨论 

遵守CLEAR清单 

       每个CLEAR清单项目可能不适用于所有放射组学研究及其随后的手稿,但所有项目都应被考虑。清单中呈现的项目不应被视为方法学建议,而应被视为报告建议。

我们强烈认为,遵守关于手稿主要结构元素的项目,如标题、摘要、关键词和引言,将有助于提高可见性或更具体地说是可发现性,并更好地吸引读者的注意。因此,它有助于将论文归类为与读者兴趣相关或不相关。

      放射组学工作流程需要许多选择,例如,提取放射组学特征和建模的参数。例如,项目#21(图像预处理细节)、项目#22(重采样方法及其参数)和项目#23(离散化方法及其参数)是重现一致和可重复的特征提取所必需的项目,这些通常被作者忽略报告。没有系统和完整的报告,完全重现和外部验证研究可能变得不可能。因此,遵守方法、结果和讨论部分的建议将有助于实现更好、更透明的报告,并提高读者对发现的理解。

       我们期望,遵守与开放科学相关的项目将在方法学步骤上带来清晰度,并成为实现完全透明和可重复研究的重要一步[40]。在这方面,项目#54(共享放射组学特征数据)、项目#55(共享预处理脚本或设置)、项目#56(共享建模源代码)和项目#57(共享最终模型文件)是作者预期要完成的基本开放科学项目。审稿人特别应该检查这些并在未提供时要求提供。项目#53(共享图像及分割数据)和项目#58(共享即用型系统)虽然不是必需的,但为了研究的完全透明性,仍然强烈推荐。

相关先前的清单、指南和质量评分工具 

       尽管没有专门为放射组学研究设计,但一些人工智能和统计建模的手稿清单已广泛使用,例如用于个体预后或诊断的多变量预测模型的透明报告(TRIPOD)和医学成像中人工智能的检查清单(CLAIM)[41, 42]。一些新的倡议,如用于个体预后或诊断的多变量预测模型-人工智能(TRIPOD-AI)和诊断准确性研究标准-人工智能(STARD-AI)也在进行中[43, 44]。这些清单包括放射组学研究的相关良好实践。然而,由于它们没有专门针对放射组学及其特定技术细节,因此在满足临床放射组学研究、手稿撰写和审查过程中的评估需求方面存在差距。例如,CLAIM专注于医学成像中的人工智能,对放射组学工作流程和数据共享的强调不够。TRIPOD声明范围广泛,没有具体处理对放射组学重要的细节,如特征提取。

      放射组学质量评分(RQS)已广泛用于通过系统文献回顾评估放射组学研究的方法学质量[19]。然而,一些项目定义不易解释,需要评估者具有重要专业知识,导致不同读者之间的可重复性变化[45]。此外,一些RQS项目对大多数研究来说可能过于严格。例如,尽管在稳健性和临床转化方面在方法学上有价值,但即使在前瞻性设置中,也可能无法在临床实践中进行多次扫描和幻影研究。多次扫描或水模研究通常是孤立进行的,而不是作为具有临床目的的放射组学研究的一部分。它不应该是每项研究的要求。在专门为此目的设计的多次扫描或幻影研究中建立稳健的放射组学特征应该足够,并指导未来的临床研究。此外,已发布了图像生物标志物标准化倡议(IBSI)指南,更多地关注记录个别特征的计算过程[10, 25]。此外,最近由欧洲核医学协会/核医学和分子成像学会(EANM/SNMMI)联合发布的放射组学在核医学中的指南提供了关于手工制作和基于深度学习的放射组学方法的最佳实践的详细信息[46]。这些指南无疑可以很好地服务于放射组学出版物的作者和审稿人,但没有简化清单的易用性。值得在这里提及的是Pfaehler等人发布的放射组学特定清单[5]。然而,这个清单旨在仅涵盖放射组学研究的可重复性方面,缺乏建模方面和其他高级分析工具。

优势 

      我们认为我们的清单具有几个关键优势,使其与以往的努力区别开来。首先,它提供了对放射组学研究的全面覆盖。因此,研究人员不需要应用或结合不同的清单。例如,可以使用RQS来获取方法学细节[19],因为它主要关注手工制作的放射组学,而CLAIM用于报告放射组学研究的建模组件[42]。此外,Pfaehler等人的清单可用于评估放射组学的可重复性方面[5]。然而,CLEAR将是一个可行的替代方案,使用单一清单全面覆盖研究的所有部分。其次,它是通过修改的德尔菲协议开发的,涉及13位国际专家。第三,小组在涉及多个机构方面具有足够的多样性。第四,我们为社区创建了一个存储库,以接收评论以改进CLEAR清单。这种方法有潜力解决在实际使用中显现的清单中的任何差距。第五,我们将清单制作成一个带有版本系统和用户友好设计的在线动态文档。

局限性 

      我们有一些局限性需要声明。首先,小组成员的数量相对较少。建议在德尔菲调查中至少有10人参与[47,48,49],这在每轮中都已实现。其次,最初的草案是由单一作者设计的,这可能看起来会导致偏见。然而,我们为小组成员提供了足够长的时间,通过具有讨论功能的在线平台对内容进行建议、评论和修订。这导致了几个问题的大量讨论。我们还进行了带有严格阈值的修改德尔菲投票。此外,最后一轮中提出的每个重要问题都通过额外的快速投票解决。第三,首席作者起草了最初的清单,由专家小组成员在匿名投票之前非匿名地进行了完善,这偏离了标准过程的匿名原则。允许直接参与者互动的非匿名修改德尔菲小组容易受到小组设置中典型的各种过程损失的影响,包括一人或少数参与者的讨论支配和确认压力等[50, 51]。然而,研究表明,允许直接参与者互动的专家小组成员更有可能改变他们的答案,达成共识,并对分歧的原因有更深入的理解,而不是那些在传统德尔菲小组中的专家[52]。第四,我们仅使用了3点量表进行德尔菲投票,还有一个额外的逃避选项。这是因为我们并不打算开发评分系统。第五,尽管我们努力使CLEAR全面,但它可能不包括所有可能的放射组学研究问题的所有相关报告项目。然而,我们希望我们的存储库将有助于将这些问题带到讨论桌面上,进而可能考虑纳入清单。第六,CLEAR的有效性和可重复性未经评估,因为这超出了本研究的范围。在不久的将来,我们打算在专门的研究工作中评估这些方面。

结论

      CLEAR清单是一个单一且完整的科学文档工具,旨在帮助作者和审稿人提高设计和报告临床放射组学研究的质量。它为实现高质量和标准化的科学交流提供了一个结构良好的框架。尽管某些项目可能不适用于所有放射组学研究,但所有项目都应仔细考虑。我们希望作者在撰写手稿时能从这个清单中受益,并且所有期刊都会采用CLEAR清单进行同行评审。我们欢迎在我们的存储库中对本指南提出评论、建议和贡献,以改进此清单的未来版本。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值