AI在医学领域：基础模型和视觉-语言模型在计算病理学应用概述

最新推荐文章于 2024-08-31 23:13:29 发布

robinfang2019

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量863

点赞数 25

分类专栏： AI在医学领域文章标签：人工智能语言模型自然语言处理机器学习神经网络深度学习

本文链接：https://blog.csdn.net/robinfang2019/article/details/141652218

版权

AI在医学领域专栏收录该内容

29 篇文章 0 订阅

订阅专栏

近年来，人工智能（AI）基于方法在计算病理学（CPath）领域中的应用迅速增长，这主要得益于数字幻灯片扫描仪的广泛采用。因此，大规模的全幻灯片图像（Whole Slide Images, WSIs）的整理和注释成为可能，确保了训练这些基于AI的模型所需的充足数据。这些基于AI的模型的目标是自动化和加速CPath的诊断和预后过程。

CPath面临的挑战：

数据收集挑战：这可能包括获取高质量、大规模的病理学数据的难度，这些数据对于训练有效的AI模型至关重要。
数据注释挑战：病理学图像的注释需要专业知识，而且可能是耗时和昂贵的。这涉及到确保数据准确标记，以便模型可以从中学习。
缺乏多样化数据：在不同的器官、疾病类型、染色技术等方面获取多样化的数据集对于训练鲁棒的模型非常重要。
任务数量庞大：病理学涉及多种不同的诊断和分析任务，模型需要能够适应这些不同的任务。
深度学习架构的挑战：设计和优化深度学习模型以处理病理学图像的复杂性和多样性可能具有挑战性。

应对上述挑战，FMs和VLMs提供自动化工具和加速诊断过程来改变了病理学家的诊断工作流程。

基础模型（FM）：利用自监督学习（SSL）方案学习任务无关的丰富表示空间，可以适应各种下游任务，并具有对组织样本变化的鲁棒性。
视觉-语言模型（VLM）：利用自然语言病理报告作为语义信息源，可以显著提高现有模型性能，并生成自然语言形式的预测结果。

1 病理学中的多模态数据集

病理学中的多模态数据集通常包含两种主要模态：视觉（图像）和语言（文本）。这些数据集可以用于训练和评估各种深度学习模型，例如基础模型和视觉-语言模型，以解决计算病理学中的各种任务。

1.1 数据集类型

图像-文本对：包含组织切片图像和与之相关的文本信息，例如病理报告、图像描述或问题/答案对。例如，PathGen-1.6M、Quilt-1M 和 OpenPath 都属于这一类别，它们包含从不同来源获取的图像和文本，例如 TCGA、PubMed、病理教科书和教育视频。
WSI VQA：包含全切片图像和与之相关的问题/答案对。例如，PathText 和 WSI-VQA 都属于这一类别，它们使用 TCGA 数据库中的图像和报告来生成问题/答案对，并可以进行多种类型的VQA，例如闭式和开放式。
VQA：包含低至中质量的图像和与之相关的问题/答案对。例如，PathMMU 和 PathVQA 都属于这一类别，它们使用病理教科书和 PEIR 数字图书馆中的数据来生成图像和问题/答案对，并可以进行多种类型的VQA，例如闭式和开放式。
指令微调数据集：包含指令和与之相关的答案对，用于提供对话能力。例如，Quilt-Instruct、PathInstruct 和 PathChatInstruct 都属于这一类别，它们使用教育病理学视频来生成指令和答案对，并可以用于微调现有的多模态模型以获得对话能力。

1.2 数据来源

PubMed：包含大量的病理图像和文本，是许多数据集的常见数据源。
TCGA：包含大量的全切片图像和相应的病理报告，是许多数据集的主要数据源。
内部专有数据集：由医院或研究机构收集和组织。
OpenPath：包含来自Twitter帖子和回复的病理图像和文本，是一个独特的数据源。
病理教科书和图谱：是重要的知识来源，可以用于提取图像描述/文本。

1.3 数据标注和预处理

解析：使用解析工具从PubMed或病理教科书中提取图像和文本。
图像分类器：使用图像分类器区分病理图像和非病理图像，并检测和分离子图像。
LLM提示：使用LLM提示来格式化和完善图像描述/文本，或根据预定义模板结构化提取的信息。
CLIP模型：使用CLIP模型和余弦相似度作为度量标准来分类病理图像和非病理图像。
其他手工算法和启发式方法：例如，路径分割、图像增强、图像去噪等。

1.4 数据集的优缺点

高质量数据集：例如 PathQABench，由专家病理学家进行标注，质量高但规模较小。
大规模数据集：例如 Quilt-1M 和 PathMMU，规模大但可能存在噪声。
特定领域数据集：例如 PathVQA，专注于病理学，但可能缺乏泛化能力。

1.5 数据集的融合

数据集子集：许多数据集包含其他数据集作为子集，例如 Quilt-1M 和 PathMMU。
数据集扩展：例如，PathLAION 是从 LAION-5B 数据集中提取的病理图像子集。

2 基础模型（FM）

基础模型（FM）是深度学习领域的一种模型，它通过自监督学习（SSL）方案学习任务无关的丰富表示空间，可以适应各种下游任务，并具有对输入数据的鲁棒性。在计算病理学中，FM 可以用于各种任务，例如癌症检测、肿瘤检测、疾病/癌症/组织/肿瘤/分子亚型、癌症分级、图像/组织/肿瘤/细胞分割、生存预测、文本到图像检索、图像到文本检索、图像到图像检索、图像字幕、模式/组织/图像分类、生物标志物预测/检测/筛选/评分、转移检测、器官移植评估、突变检测/预测、VQA 和报告生成等。