基于CT图像特征分析的机器学习算法预测非小细胞肺癌病理分期
研究共纳入145例病理证实的IA-IV期NSCLC患者。患者队列由三个数据集组成,包括NSCLC(n = 87),LUAD(n = 24)和LUSC(n = 34)。NSCLC样本平均分为训练集和测试集,而LUAD和LUSC数据集用于外部验证。NSCLC,LUAD和LUSC队列患者的临床病理特征如表1所示。纳入标准为新诊断或未经治疗的NSCLC和病理证实的IA-IV期肺腺癌和鳞状细胞癌,以及治疗前的CT图像。排除标准是接受手术或化学放射治疗并且包含不正确的分期信息的患者。TRIPOD核对表附加为附加文件1:表S1。
表1训练和验证集中的患者和肿瘤特征
1.通过3D切片器软件进行病变识别和感兴趣区域分割
所有患者图像均以原始DICOM格式加载和处理。使用3D-Slicer软件加载CT图像文件和RTSTRUCT文件用于映射病变的子区域。应用段编辑器模块将主表示从平面轮廓更改为二进制标签贴图。3D图像文件和二进制掩模标记文件由3D切片器保存为NRRD格式文件,用于下一个特征提取步骤。
2.使用Pyradiomics从CT图像中提取特征
使用python包pyradiomics来执行特征提取任务。一些定量特征如下:一阶特征,形状特征,灰度共生矩阵(GLCM)特征。除了形状特征之外,还可以在原始图像或派生图像上测量其他特征。
3.数据预处理
首先应该确认NSCLC队列的原始类别分布是否平衡。如果不是,则通过SMOTE算法进行过采样,以解决机器学习中数据集不平衡,并通过生成新的数据集来实现类分布的均衡,然后将新生成的数据集分成训练集和测试集。
4.预测建模和特征选择
考虑到可能影响预测模型分类精度的一些冗余和不相关的特征,通过随机森林算法计算CT图像特征的重要性值,然后根据特征重要性选择最佳特征(平均减少基尼杂质> 0.005)用于建模。在这里,使用袋外(OOB)误差评估随