TRIPOD-LLM声明是一项专门针对大型语言模型(LLM)在医疗保健领域应用的报告指南。随着LLM在医疗健康中的迅速应用,制定标准化的报告指南对于确保研究的透明性和可重复性变得越来越重要。TRIPOD-LLM是TRIPOD+AI声明的扩展,旨在解决LLM在生物医学应用中所面临的独特挑战。该指南为LLM的研究者提供了详细的清单,覆盖了从标题到讨论的各个方面,包括报告的透明度、人为监督以及特定任务的表现报告等内容。
背景与意义
近年来,大型语言模型在医疗领域中的应用越来越广泛,其应用涵盖了从病历文档生成、信息检索到患者教育等多个领域。然而,LLM的快速发展暴露了现有监管和治理结构的不足,难以涵盖这些通用模型的复杂性。此外,由于LLM的研究进展迅速,学术出版和同行评审的时效性也面临挑战。为了维护研究的质量和速度,TRIPOD-LLM旨在为LLM的开发、使用和评估提供清晰、标准化的报告框架。
TRIPOD-LLM的目标与结构
TRIPOD-LLM声明的目标是通过透明和一致的报告,提升LLM在医疗领域研究的质量、可重复性和临床适用性。该声明的核心是一份由19个主要项目和50个子项目组成的清单,涵盖了标题、摘要、引言、方法、结果以及讨论等关键部分。其中,14个主要项目和32个子项目适用于所有类型的LLM研究设计和任务,剩余的项目则适用于特定的研究设计或任务类别。
TRIPOD-LLM的结构采用了模块化的形式,以适应不同的LLM研究设计和任务需求。例如,研究者可以根据研究的具体设计(如全新开发、微调、评估)或任务类型(如文本分类、问答、文档生成等)来选择相应的报告项目。这种模块化的方法使得指南的应用更加灵活,能够适应不同LLM研究的具体需求。
研究设计与任务类别
在TRIPOD-LLM的模块化指南中,研究设计和LLM任务被分为几个类别,以便于研究者根据研究类型选择合适的报告标准。
研究设计类别包括:
-
全新LLM开发:从头构建新的语言模型,或对现有基础模型进行显著的微调,以开发新功能或适应新任务。例如对医院临床数据进行预训练的研究。
-
LLM方法研究:探索新架构、新计算方法、LLM理解的新方法、评估新方法,或提示优化的新方法。例如用于医学的检索增强生成LLM框架的研究。
-
LLM评估:评估或测试现有LLM,以确定其在特定任务中的有效性、准确性或适用性,评估使用中的风险和偏差。例如研究现有LLM在诊断任务中的偏差。
-
LLM在医疗环境中的评估:评估LLM在临床工作流程中的表现,关注其在临床、行政或工作成果方面的集成和影响。例如评估LLM在住院患者中的预测效果。
LLM任务类别包括:
-
文本处理:例如分词、句法分析和命名实体识别。
-
分类:为文本数据分配预定义标签,如诊断任务。
-
长形式问答:为复杂的查询提供详细答案,可能涉及多个文献或证据的推理。
-
对话代理(聊天机器人):用于患者互动、健康咨询或医疗人员的虚拟助理。
-
文档生成:自动生成医疗文档,如病历和总结。
-
总结和简化:将文本压缩为简短版本,或简化内容以便于理解,适用于患者教育或制作医疗记录的概要。
-
机器翻译:将文本从一种语言翻译为另一种语言。
-
结果预测:基于历史数据预测未来的医疗结果,如预后估计。
TRIPOD-LLM的主要内容与新增项
TRIPOD-LLM包含了对LLM研究进行充分和透明报告所需的各个方面,包括但不限于以下内容:
-
数据来源和处理:要求明确描述LLM开发过程中使用的数据来源、数据预处理步骤和数据质量控制措施。例如,需要报告训练、微调以及评估数据的最早和最晚日期,以及如何处理数据中的缺失值和不平衡问题。
-
模型方法与评估:指南要求报告LLM的名称、版本和最后的训练日期,描述开发过程中的细节,如架构、训练和微调的程序,以及对齐策略和目标。
-
性能评估:强调应使用自动和人为评估结合的方法,来全面评估LLM的生成输出,尤其是对医学文本的准确性和相关性进行评估。
-
透明度和人类监督:指南特别强调透明度和人为监督在LLM开发和评估中的重要性。LLM的使用应在特定上下文中进行明确说明,包括使用的目的、自动化水平以及对人类监督的需求。
TRIPOD-LLM还包括了一份专门用于LLM研究摘要的检查表,并修订了TRIPOD+AI摘要声明,以反映新的内容并与TRIPOD-LLM保持一致。这些建议不规定如何具体开发或评估LLM,而是旨在确保研究报告的完整性和透明度。
TRIPOD-LLM作为“活文档”
考虑到LLM技术和应用的发展速度,TRIPOD-LLM指南被设计为“活文档”,以便能够及时更新并反映领域的最新进展。指南的开发采用了加速版的Delphi流程,通过专家共识快速达成意见。此外,TRIPOD-LLM通过在线互动网站(https://tripod-llm.vercel.app/)发布,以便于研究者根据具体的研究设计和任务完成指南内容,并生成适合提交的PDF文件。
为了确保指南的及时性和适用性,专家小组每三个月召开一次会议,审查相关文献并讨论可能的更新。任何重大、意外的领域变化都可能引发对指南的临时审查和修订。这种灵活的管理方式确保了TRIPOD-LLM能够快速响应LLM研究和应用中的新挑战。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。