HistoCell 是一种弱监督、无需人工标注的深度学习方法,旨在从组织学图像推断超分辨率细胞空间分布,包括细胞类型、细胞状态及其空间网络。其核心在于构建预训练模型,通过解耦组织学图像中细胞形态特征与空间转录组数据中的去卷积细胞组成,实现高精度细胞空间解析。
🔬 方法框架
1. 特征提取与编码
• 采用 HoVerNet 进行细胞实例分割,获取个体细胞核的形态学特征。
• 通过 ResNet-18 提取单细胞核的嵌入式形态特征。
• 利用 图注意力转换器 (GAT) 获取细胞间的空间拓扑关系。
• 采用 长短时记忆网络 (LSTM) 进行分层编码,以反映细胞类型、细胞状态及其组织区域信息。
2. 弱监督学习与预训练
• 收集包含高分辨率组织学图像和空间转录组(ST)数据的 99 例癌症样本(涵盖 9 种癌症)。
• 采用 CARD、RCTD、Tangram 和 POLARIS 方法对 ST 数据进行细胞类型去卷积,并生成 Spot 级细胞组成作为弱监督标签。
• 进一步解析 ST 数据中的上皮、微环境等细胞分区,并通过 EcoTyper 注释不同的上皮细胞状态。
• 结合 ST 数据与配对组织学图像,训练 HistoCell 预训练模型,实现基于单细胞核级别形态学特征预测 Spot 级细胞组成。
3. 模型评估与验证
• 采用交叉验证,在 9 种癌症类型的 ST 数据集上评估模型的稳定性。
• 通过 皮尔逊相关系数 (PCC) 量化预测结果与 ST 去卷积细胞组成的相似性,验证 HistoCell 在 Spot 级细胞组成预测中的准确性。
• 与现有方法 POLARIS 进行比较,HistoCell 在乳腺癌、前列腺癌和肝癌数据上的平均 PCC 提高了 3.31 倍,表现出更高的预测精度,尤其是在低丰度细胞类型(如 T 细胞、髓系细胞和基质细胞)上的预测能力更强。
🚀 核心优势
✅ 高分辨率与准确性:在 PanNuke 和 10x Xenium 数据上,肿瘤细胞分类 AUC 达 0.93,优于全监督模型;整合图像特征后,显著提升空间聚类精度。
✅ 临床价值突出:支持组织微结构注释,揭示预后相关空间交互指标,助力临床标志物发现。
✅ 鲁棒性与泛化性:对图像分辨率(10x-40x)、样本量(低至 5% 训练数据)和解卷积方法均表现稳定,并支持跨技术(Visium/Xenium/FFPE)及跨癌种迁移。
总体而言,HistoCell 构建了一种新型的组织学图像分析框架,为探索细胞空间异质性及其临床意义提供了强大的工具。
参考文献:Nature Communications volume 16, Article number: 1838 (2025)