期刊《Nature Communications》上发表的文章《In-context learning enables multimodal large language models to classify cancer pathology images》探讨了上下文学习(In-context learning)技术如何增强多模态大语言模型(multimodal large language models),使其在癌症病理图像分类任务中表现出卓越的能力。具体来说,上下文学习使得模型能够根据输入的任务上下文灵活调整推理策略,而无需依赖额外的模型训练或参数更新。同时,多模态大语言模型通过融合图像和文本等多模态数据的特征,具备了同时处理病理图像的视觉信息与相关文本的语义信息的能力,从而实现对癌症病理图像的高精度分类。这种方法为医学图像分析与癌症诊断提供了一种高效且智能的解决方案。
01.引言
本文介绍了利用上下文学习增强多模态大型语言模型(LLM)在癌症病理图像分类中的研究。随着深度学习技术在医疗领域,尤其是在癌症病理图像的分类和诊断方面的进展,传统方法依赖于大量标注数据且泛化能力有限。因此,研究者们探索了通过结合LLM的文本理解与生成能力,以及上下文学习,来提高模型的分类性能和泛化能力。为此,研究者们使用预训练的视觉模型提取图像特征,并将其与文本描述相结合,输入到LLM中,通过上下文学习建立图像与文本之间的关联,实现更准确的分类。本研究不仅有助于提升癌症病理图像分类的准确性和效率,还为多模态大型语言模型在医疗领域的应用提供了新的思路,并可能为其他图像分类任务提供参考。
02.模型介绍
文章中的模型架构是一种结合了多模态大型语言模型(LLM)和上下文学习的方法,用于癌症病理图像的分类。以下是该模型架构的详细介绍,包括其各个模块的功能:
一、模型架构概述
该模型架构旨在利用多模态大型语言模型(LLM)的文本理解和生成能力,以及上下文学习的优势,来提高对癌症病理图像的准确分类。模型通过结合视觉特征和文本描述,实现对图像的有效分类。
二、组成模块及其功能
- 视觉特征提取模块
-
功能:该模块负责从癌症病理图像中提取有用的视觉特征。
-
实现方式:通常使用预训练的视觉模型(如卷积神经网络CNN)来处理图像数据,并输出高维的特征向量。这些特征向量能够捕捉图像中的关键信息,如细胞形态、纹理等。
- 文本描述生成模块
-
功能:该模块负责生成与癌症病理图像相对应的文本描述。
-
实现方式:可以利用自然语言处理技术(NLP)从医学文献、病理报告等来源中提取与图像相关的文本信息。这些文本描述提供了图像的上下文信息,有助于模型更准确地理解图像内容。
- 多模态融合模块
-
功能:该模块负责将视觉特征向量和文本描述进行融合,形成多模态输入。
-
实现方式:可以采用多种融合策略,如拼接、加权求和等,将视觉特征和文本描述整合在一起。这样,模型就能够同时利用图像和文本的信息来进行分类。
- 多模态大型语言模型(LLM)
-
功能:该模块是模型的核心部分,负责处理多模态输入,并输出分类结果。
-
实现方式:LLM通常采用Transformer等先进架构,能够处理长序列文本和复杂上下文信息。在本文中,LLM被训练成能够接收多模态输入(即视觉特征和文本描述的融合),并输出图像的分类结果。
- 上下文学习模块
-
功能:该模块负责利用上下文信息来增强模型的分类能力。
-
实现方式:通过引入额外的上下文信息(如患者的病史、治疗情况等),模型能够更好地理解图像中的异常变化,并做出更准确的分类。上下文学习模块可以通过微调LLM的参数来实现。
三、模型工作流程
-
数据预处理:对癌症病理图像进行预处理,包括缩放、裁剪等,以适应视觉特征提取模块的要求。
-
特征提取:使用视觉特征提取模块从预处理后的图像中提取特征向量。
-
文本描述生成:利用文本描述生成模块为图像生成相应的文本描述。
-
多模态融合:将特征向量和文本描述进行融合,形成多模态输入。
-
分类预测:将多模态输入输入到多模态大型语言模型(LLM)中,进行分类预测。
-
上下文学习:利用上下文学习模块引入额外的上下文信息,增强模型的分类能力。
综上所述,该模型架构通过结合视觉特征提取、文本描述生成、多模态融合、多模态大型语言模型和上下文学习等模块,实现了对癌症病理图像的准确分类。这种多模态融合的方法不仅提高了模型的分类性能,还为医疗领域的应用提供了新的思路和方法。
模型架构示意图
03.研究结果
研究结果
文章展示了GPT-4V(一种具有视觉能力的生成式预训练Transformer模型)在癌症病理图像分类任务中,通过上下文学习(in-context learning,ICL)取得的显著效果。实验覆盖了三个重要的癌症组织病理学任务,并与专门的图像分类器进行了对比。
- 组织分类任务的效果:
-
GPT-4V在组织分类任务中的表现,可以通过上下文学习得到改进,其性能与专业的计算机视觉模型相当。
-
在使用k近邻(kNN)采样方法选择与目标图像相似的样本图像时,GPT-4V在检测腺瘤(如sessile-serrated adenoma)与增生性息肉、乳腺癌淋巴结转移与无肿瘤淋巴的准确率分别达到了83.4%和88.3%。
- 与重新训练模型的比较:
-
研究者比较了通过上下文学习的GPT-4V与从ImageNet权重重新训练的模型的性能。
-
结果表明,在相同条件下,GPT-4V的十样本上下文学习方法不仅达到了,甚至超过了所有其他模型的性能,包括专门用于图像分类的窄域模型。
- 在CRC100K数据集上的肿瘤检测:
-
GPT-4V在CRC100K数据集上区分肿瘤与非肿瘤组织块的分类准确率,通过利用随机采样的少量图像样本进行上下文学习,得到了显著提高。
-
kNN-based采样方法进一步提升了分类性能。
- 不同数量样本的对比:
-
文章还分析了使用不同数量(1、3、5、10)的样本进行上下文学习时,GPT-4V的分类准确性变化趋势。
-
结果显示,随着样本数量的增加,分类准确性普遍提高。
- 嵌入空间分析:
-
通过t-SNE(t-distributed Stochastic Neighbor Embedding)分析模型推理的语义空间,发现GPT-4V生成的嵌入在比较时形成了明显的聚类,与模型的最终答案相吻合。
-
这表明文本和图像数据之间存在潜在的相关性。
6 特定案例的分析:
-
文章中展示了GPT-4V在特定案例中的表现,如通过识别不规则形状的细胞核来检测肿瘤细胞。
-
GPT-4V还能够从其他上下文中迁移知识,用于描述图像中脂肪细胞的形态。
- 与其他模型的比较:
-
GPT-4V与ResNet-18、ResNet-50、Vision Transformers(ViT-Tiny和ViT-Small)等专门的图像分类模型进行了比较。
-
在公平条件下,GPT-4V的性能与这些模型相当或更优。
综上所述,该文章的研究结果表明,通过上下文学习,GPT-4V在癌症病理图像分类任务中表现出色,其性能与甚至超过了专门的图像分类器。这为开发通用型框架奠定了基础,该框架可能推动图像提示技术的最新发展。
视觉语言模型的上下文学习结果示意图
图像上下文学习提升文本推理能力结果示意图
04.研究意义
- 推动医疗领域技术进步:
- 文章介绍了通过上下文学习使多模态大型语言模型能够对癌症病理图像进行分类的研究成果,这一技术有望推动医疗领域在图像分类和诊断方面的技术进步。
- 提高癌症诊断准确性:
- 研究表明,利用多模态大型语言模型和上下文学习的方法,可以提高模型在癌症病理图像分类中的准确性,这对于提高癌症诊断的准确性和可靠性具有重要意义。
- 减少对传统标注数据的依赖:
- 传统方法往往依赖于大量的标注数据,而本文提出的方法通过利用上下文学习和多模态信息,减少了对大量标注数据的依赖,降低了数据收集和处理的成本。
- 拓展大型语言模型应用场景:
- 文章将大型语言模型应用于医疗领域的癌症病理图像分类任务,拓展了大型语言模型的应用场景,为其他领域的类似任务提供了借鉴和参考。
- 促进医疗智能化发展:
- 这一研究成果的发表,有助于推动医疗领域的智能化发展,提高医疗服务的效率和质量,为患者提供更好的医疗体验和治疗效果。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。