《Evaluate the Malignancy of Pulmonary Nodules Using the 3D Deep Leaky Noisy-or Network》阅读笔记–翻译及个人理解(二)
论文链接 :https://arxiv.org/pdf/1711.08324.pdf
声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢!
数据集和预处理
A.数据集
两个肺部扫描数据集用于训练模型,即LUng Nodule Analysis 2016数据集(简称LUNA)和Data Science Bowl 2017的训练集(简称DSB)。 LUNA数据集包含了888名由放射科医师标注患者的1186个结节标签,而DSB数据集仅包含每个受试者的二元标签,表明该受试者在扫描后一年是否被诊断为肺癌。 DSB数据集在其训练,验证和测试集中分别包含1397、198、506个人(案例)。我们在训练集中手动标记了754个结节,在验证集中手动标记了78个结节。
LUNA结节和DSB结节之间存在一些显着差异。 LUNA数据集具有许多非常小的带注释的结节,这可能与癌症无关。根据医生的经验,结节小于6毫米通常并不危险。但是,DSB数据集有许多非常大的结节(大于40毫米)(图1中的第五个样本)。在DSB数据集中,平均结节直径为13.68 mm,在LUNA数据集中,平