CRISPR-GPT: Google 领军自动化基因编辑LLM Agent-CSDN博客

本文链接：https://blog.csdn.net/Hofong1966/article/details/138359836

当大家还在讨论AI是否能进行复杂推理的时候,另一个有"破坏力创造"的进步却在悄然发生。那就是AI与基因编辑技术的结合!!

我曾经参与生物芯片公司的运营, 所以从实务上深入分析这个应用带来的影响, 但是如果产业知识对您过于艰涩, 您可以直接看我的结论。

基因工程技术的引入彻底改变了生物医学研究,使得对基因信息进行精确修改成为可能。然而,创建一个高效的基因编辑系统需要对CRISPR技术和复杂的实验系统有深入的理解。虽然大型语言模型(LLM)在各种任务中表现出了前景,但它们往往缺乏特定知识,难以准确解决生物学设计问题。

在由DeepMind领军Stanford U.及Princeton U.实验室的这项工作中,该报告介绍了CRISPR-GPT,这是一个融合了领域知识和外部工具的LLM agent,可以自动化和增强CRISPR基因编辑实验的设计过程。CRISPR-GPT利用LLM的推理能力,帮助选择CRISPR系统、设计向导RNA、推荐细胞递送方法、起草实验方案,并设计验证实验以确认编辑结果。该报告展示了CRISPR-GPT在协助非专家研究人员从头开始进行基因编辑实验方面的潜力,并在一个真实世界的案例中验证了agent的有效性。此外,该报告探讨了与自动化基因编辑设计相关的伦理和监管考量,强调需要负责任和透明地使用这些工具。该报告的工作旨在弥补初学生物研究人员与CRISPR基因组工程技术之间的差距,并展示LLM agent在促进复杂生物学发现任务中的潜力。

背景
基因编辑技术代表了一项开创性的科学进步,它使得精确改变生物体的遗传物质成为可能。这一创新技术在生物学和医学的各个领域都得到了广泛应用,从纠正导致囊性纤维化、血友病和镰刀型贫血等疾病的基因缺陷,到为对抗癌症、心血管疾病、神经退行性疾病和感染等复杂疾病提供新策略。最著名的基因编辑系统之一被称为CRISPR-Cas9。它是从细菌用作免疫防御的天然发生的基因组编辑系统改编而来。除了CRISPR-Cas9,最近的进展还促成了CRISPR启动/干扰、CRISPR基础上的Prime编辑和Base编辑技术的发展。CRISPR启动/干扰,也称CRISPRa/CRISPRi,能够通过表观遗传调控来增强基因表达或沉默特定基因的活性。被认为是DNA的"搜索和替换"方法的Prime编辑可以在不引入双链断裂的情况下进行精确编辑。另一方面,Base编辑可以在目标位置直接、不可逆地将一种DNA碱基转换为另一种,进一步扩大了精确基因组修饰的工具箱。所有这些技术在医学、农业及其他领域都有广泛的应用潜力,提高了基因组编辑在寻求治疗遗传疾病和其他应用方面的能力。

设计基因编辑实验需要深入理解一系列技术以及目标器官相关的生物学。CRISPR Cas基础编辑的工作原理是与一个短的"向导"序列(导向RNA)的RNA相互作用,该序列与细胞DNA中的特定目标序列结合,类似于细菌从CRISPR阵列产生的RNA片段。当导入细胞时,导向RNA识别预定的DNA序列,Cas酶(通常是Cas9或其他)在目标位置切割DNA,模仿细菌中的过程。在设计这类实验时,有许多考虑因素,包括选择合适的基因编辑系统、开发最佳的导向序列和验证方法。这通常需要大量的领域专业知识、对目标器官生物学的理解以及反复试验。开发人工智能辅助计算工具来帮助基因编辑有巨大的前景,可以让技术更容易获得,加速科学和治疗的发展。

大型语言模型(LLM)已经在语言技能方面展示了非凡的能力,并包含了大量的世界知识,近似于人工通用智能的某些方面。最近的研究还探索了用外部工具增强LLM,提高它们解决问题的能力和效率。LLM也展示了作为工具制造者和黑盒优化器的潜力。研究人员探索了用于各种应用领域的基于LLM的专门模型,以及用于解决科学和数学任务的模型。例如,ChemCrow使用工具增强LM来解决一系列与化学相关的任务,如对乙酰氨基酚的合成,而Coscientist也由GPT-4驱动并整合了自动实验,在优化钯催化的交叉偶联反应方面取得了成功。

然而,一般用途的LLM并不知道如何设计生物学实验。尽管运用大型语言模型(LLM)来辅助基因编辑实验的设计前景诱人,但目前最先进的通用模型在这一专业领域存在明显不足。这些模型虽然知识储备丰富,却缺乏精确、最新的特定领域知识,而这对于准确设计生物学实验至关重要。

通用LLM的一个关键局限性是它们倾向于产生自信但不准确的回应,即当被要求回答专业生物学查询时的 "幻觉"。例如,当被要求为靶向特定人类基因(如EMX1或EGFR)设计向导RNA(gRNA)序列时,像ChatGPT-3/ChatGPT-4这样的通用LLM往往会用高置信度给出错误序列。然而,它们提供的gRNA序列通常与任何已知的基因组区域都不对应。这种差异可以通过将LLM生成的序列与NCBI的BLAST等数据库中的参考序列进行比对来轻易发现,BLAST可以将序列与人类基因组和转录组比对。如果不经过适当的审核,这种虚构的设计序列不仅缺乏实用性,还可能误导研究人员,导致资源和时间的浪费。

此外,通用LLM产生的回应通常缺乏实验设计所需的基本细节,如具体材料、方案、非目标效应考量、gRNA效率和特异性。这些信息上的差距可能让研究人员,尤其是基因编辑领域的新手,无法为实验的实际执行做好准备。

值得注意的是,生成的回应可能包含大量与基因编辑实验设计无直接关系的信息。这种无关的文字会导致混淆和误导,使研究人员难以识别最相关和最实用的信息。

所有这些局限性都凸显了开发专门针对基因编辑实验设计的新型LLM的必要性。这些模型需要整合深入、精确的领域知识和批判性评估并生成可行实验解决方案的能力,从而克服通用LLM在设计CRISPR基因编辑实验时面临的当前障碍。

CRISPR-GPT概述
在基因工程快速发展的领域,CRISPR技术已成为精确基因编辑的关键工具。尽管它很有前景,但设计CRISPR实验的复杂性——从向导RNA(gRNA)的选择到预测非目标效应——对那些刚接触该领域的人来说带来了重大挑战。为了弥合这一差距,该报告推出了CRISPR-GPT,这是一种新型解决方案,它将大型语言模型(LLM)的优势与特定领域知识和计算工具相结合,专门用于CRISPR基因编辑任务。

CRISPR-GPT的核心是一个量身定制的LLM驱动的设计和规划agent。这个agent的引擎不仅利用了基因编辑领域领先从业者的专家知识,还整合了对最新文献的广泛回顾以及一套计算工具包,包括向导RNA设计工具。

CRISPR-GPT Agent的创新之处在于通过简化复杂的过程为一系列可管理的步骤,实现基因编辑实验的自动化设计:

CRISPR系统的选择:根据实验需要量身定制CRISPR系统的选择。
gRNA设计:根据Broad Institute的金标准guideRNA库和CRISPRPick工具包,包括预先设计的gRNA库,优化guideRNA序列的效率和特异性。
递送方法选择:就将CRISPR组分导入目标细胞的最有效方法提供建议。
非目标效应预测:评估预期编辑的同时可能出现的意外改变。
实验方案的推荐:根据实验目标量身定制分步过程。
验证方法推荐和引物设计:推荐验证编辑的最佳方法,并帮助设计相关引物。
这种方法利用连续思考推理模型和状态机,确保即使是基因编辑的新手也能反复完善他们的实验设计,以达到满足他们具体研究需求的方案。此外,CRISPR-GPT还提供:

一个自由问答模式,用于精确解答临时查询。
一个用于深入分析预设计gRNA的非目标预测模式。
当使用者在实验设计过程中遇到其他问题时,这些功能可以为使用者提供帮助。

考虑到围绕基因编辑(尤其是人类应用)的伦理和安全问题,该报告已经将保障措施整合到CRISPR-GPT中。这些措施包括限制其在人类受试者中的使用、确保遗传信息隐私的措施,以及对潜在意外后果的警示,反映了该报告致力于在与基因编辑技术相关的更广泛的科学和伦理讨论中负责任地使用这些工具。

方法和算法
大型语言模型
CRISPR-GPT agent由以下4个核心模块组成:LLM规划器、工具提供者、任务执行器和LLM Agent,后者作为与使用者的接口,用于接收输入和传达输出。

任务执行器以状态机的形式运行,提供稳健的子目标分解和进度控制。该报告以状态机的形式为CRISPR-GPT实现了22个任务,总结于表1。状态机负责为当前任务提供充分的指示,并引导使用者通过多轮文字互动完成决策。通过这些状态机,该报告为任务执行器手动分解每个任务为子目标。具体而言,每个状态负责一个特定的子目标。转移逻辑被很好地定义,因此任务执行器可以根据当前进度适当地转移到另一个子目标。

该报告有4个预定义的元任务,支持4种基因编辑相关实验的完整流程;见表1。此外,LLM规划器可以根据使用者的元请求生成定制的任务清单。相应任务的状态机被链接在一起,形成一个更大的状态机以支持整个流程。

工具提供者将任务执行器与外部API连接起来。为了将语言模型与外部功能连接起来,系统需要(1)分析当前形势并判断是否适合调用外部工具;
(2)知道有哪些工具可用,并从中选择最佳工具。
在CRISPR-GPT中,该报告没有直接向LLM公开API的接口,而是将API的使用包装在状态中,并通过手写的指示和回应公开更加使用者友好和LLM友好的文本接口。通俗地说,该报告是在教使用者(人类agent和LLM agent)如何使用这些工具。这些工具包括Google网络搜索、运行Primer3等程序,以及从外部向导RNA库、研究论文和实验方案中检索信息。

LLM规划器根据使用者的请求自动生成任务清单。大型语言模型(如GPT-4、Gemini和Claude)可以作为LLM驱动的agent的推理核心,以解决现实世界的决策问题。该报告采用流行的ReAct提示技术,其中LLM被提示输出连续思考推理路径和从可能的行动集合中选出的最终行动。为了让LLM执行任务分解,该报告提供一个表格,其中包含所有任务的描述和依赖关系作为LLM的提示。基于LLM的内部知识以及该报告手动编写的任务描述和任务分解指示,LLM可以智能地分析使用者的请求,并将使用者

的请求分解为一系列任务,同时考虑任务之间的依赖关系。分解后,相应的状态机被链接在一起以完成所有任务。任务分解的提示格式可以在附录B中找到。

为了提高鲁棒性,该报告不允许LLM在自动执行过程中动态添加/删除新任务(新状态机)。然而,该报告相信这是迈向更智能的CRISPR-GPT版本的重要一步,并将其作为未来的工作。

LLM-Agent根据使用者的元请求自动与任务执行器互动。在解决自动化CRISPR基因编辑任务这一复杂挑战时,该报告通过序贯决策的视角来构建问题。这一视角将使用者与自动化系统之间的互动框定为一系列步骤,每一步都需要精确的决策以朝着实验设计和执行的最终目标前进。该报告系统的核心是LLM-agent,它充当使用者与状态机之间的中介。这个状态机源自初始任务分解步骤,有效地将基因编辑过程分解为一个结构化的动作和决策序列。在这个序列的每一步,状态机都向LLM-agent呈现一个当前状态。这个状态封装了手头任务的描述,并指定了使用者需要提供的任何输入以推进进程。

LLM-agent的角色是解释当前状态并代表使用者做出明智的决定。为了有效地做到这一点,agent可能会利用各种信息,包括:

当前状态固有的指示,
使用者提出的具体请求,
当前任务会话中过去互动的历史,
已整合到系统中的外部计算工具的结果。
这些信息被整合到LLM-agent的提示中,然后agent利用其能力来确定最合适的下一步行动。这些提示的格式和结构旨在优化决策过程。

使用者监督是该系统的一个关键组成部分。虽然LLM-agent自主运作,但使用者并没有被排除在这个过程之外。相反,该报告鼓励他们监控任务的进展并与agent互动。这种设置确保LLM-agent的任何错误或误解都能被使用者及时发现和纠正,维持基因编辑实验设计的准确性和完整性。这种自动化方法强调人类专业知识与人工智能之间的协同合作。通过利用LLM-agent处理和应对复杂信息的能力,该报告为设计CRISPR基因编辑实验提供了一种更高效、更使用者友好的体验。序贯决策框架不仅简化了任务执行过程,而且确保使用者的输入仍然是实验规划和设计的基石。

人工评估
为了评估CRISPR-GPT agent在协助基因编辑和实验设计方面的有效性,该报告组织了一个由12位CRISPR和基因编辑研究领域专家组成的多元化小组。这12位专家根据既定标准,对三种模式对实验设计任务的回应进行了1(差)到5(优)的评分。为了提供一个比较视角,该报告使用类似的提示生成了ChatGPT 3.5和ChatGPT 4.0(模型版本gpt-4-0613)的输出,并使用相同的标准进行评估。

生物学实验和湿实验验证
该报告通过人工-agent协作使用ChatGPTv4 API的CRISPR-GPT进行了生物学实验,作为该报告方法的真实世界湿实验验证。具体而言,该报告让独立的科学家(他们不熟悉基因编辑实验)使用CRISPR-GPT来协助他们在一个癌症研究项目中进行基因敲除(KO)实验。详细的方法如下。

细胞系和细胞培养。A375细胞系在添加了10%胎牛血清(FBS,Gemini Bio)、100 U/ml青霉素和100ug/ml链霉素(Gibco)的DMEM高糖、GlutaMAX(Gibco)中培养,温度为37 ∘C,CO2浓度为5%。

crRNA克隆。通过Golden Gate组装方法使用BbsI或Esp3I(NEB)将4个crRNA(TGFBR1/SNAI1/BAX/BCL2L1)克隆到表达Cas12a的骨架载体中。使用U6测序引物通过Sanger测序验证构建: 5'-GACTATCATATGCTTACCGT-3'。

慢病毒包装和转导。通过使用PEI转染试剂(Sigma-Aldrich)将组装好的慢病毒载体与VSV-G包膜和Delta-Vpr包装质粒共转染到HEK-293T细胞中来产生慢病毒。转染48小时后收集上清液。使用8µg/mL polybrene通过1000*g 45分钟的离心感染,以低MOI转导A375细胞。24小时后,用1µg/mL嘌呤霉素筛选细胞以建立稳定表达的细胞系。

gDNA提取、PCR和测序。7天后使用QuickExtract(Lucigen)从筛选的细胞中提取基因组DNA。然后根据制造商的说明,使用含有Illumina测序接头的引物和Phusion Flash高保真PCR Master Mix(ThermoFisher Scientific)扩增目标位点。在Illumina MiSeq平台上生成配对末端读数(150 bp)。

结果

CRISPR-GPT利用LLM的推理能力、领域知识、检索技术和外部工具,为基因编辑实验设计任务提供全面的解决方案。它支持广泛的基因编辑场景,包括单基因敲除、无双链断裂的碱基编辑、通过prime编辑进行插入/缺失/替换,以及用于基因激活或抑制的表观遗传编辑(CRISPRa和CRISPRi)。

CRISPR-GPT通过三个模块协助研究人员进行基因编辑实验设计
CRISPR-GPT agent通过三个不同的模块帮助研究人员设计基因编辑实验。"元模式"为一般基因编辑场景(称为元任务)提供专家定义的流程,使使用者,特别是基因编辑领域的新手,能够使用这些流程。"自动模式"根据使用者输入自动生成定制的必要设计任务清单,帮助各个层次的使用者实现目标。"问答模式"作为一个高级GPT-4聊天机器人,在整个设计过程中解答使用者与CRISPR和基因编辑相关的查询。

元模式

"元模式"涉及使用4种CRISPR基础基因编辑系统(元任务)规划和实施22个独特的基因编辑实验设计任务。它利用预定义的流程来帮助使用者彻底完成一个元任务。在这种模式下,CRISPR-GPT agent引导使用者完成设计基因编辑实验所需的每个任务。这包括选择合适的CRISPR系统、推荐递送方法、设计sgRNA、预测sgRNA非靶向效率、选择实验方案以及计划验证实验。

对于每一个设计任务,CRISPR-GPT agent都与使用者互动,应用各种技术和外部工具来提供最佳解决方案。例如,在选择CRISPR系统时,CRISPR-GPT不断与使用者互动,提供指示并收集信息,根据已发表的方案提出选项。对于递送方法推荐等与上下文相关的任务,CRISPR-GPT不仅会推荐常用方法,还会根据使用者的要求通过网络搜索提供定制解决方案。对于sgRNA/pegRNA设计,来自现有设计和出版物的多物种数据库使CRISPR-GPT能够根据使用者信息快速提出预设计的sgRNA。在sgRNA/pegRNA设计之后,使用者可以根据CRISPR-GPT提供的详细指示和代码评估设计的指引的潜在非靶向效应。完成设计任务后,CRISPR-GPT根据互动历史提供选定的方案,包括CRISPR系统选择和递送方法。最后,对于验证任务,CRISPR-GPT利用外部API(如Primer3)来帮助使用者设计用于验证实验的引物。

自动模式

"自动模式"也有助于规划和执行13个独特的基因编辑实验设计任务。与"元模式"不同的是,它不依赖预定义的元任务和流程;相反,它使用LLM-规划器将使用者的请求分解为一系列依赖任务。例如,如果使用者请求"设计sgRNA以敲除人类EGFR",CRISPR-GPT agent会从请求中识别关键字,并列出必要的设计任务,如"CRISPR/Cas系统选择"和"用于敲除的sgRNA设计"。此外,它使用来自初始请求的信息(例如,靶基因"EGFR"和物种"人类")来自动填充相关字段并生成sgRNA设计,而不需要使用者重复输入。同时,CRISPR-GPT阐明其选择背后的理由,允许使用者跟踪该过程并在必要时进行修正。

问答模式
在"元模式"和"自动模式"的设计任务中,CRISPR-GPT agent通过"问答模式"实时回应或建议CRISPR和基因编辑相关的查询。例如,在选择CRISPR系统后,寻求有关所选系统(如Cas12a)更多信息的使用者可以通过提问"Q: 什么是Cas12a?"来快速获得答案。CRISPR-GPT利用其知识库以及来自该领域专家选定数据库的文件检索,迅速提供准确、相关的信息。

CRISPR-GPT通过人工专家评估在基因编辑设计任务中优于通用LLM

为了评估CRISPR-GPT agent的性能,该报告邀请了12位CRISPR和基因编辑领域的专家,设计了一组任务来测试CRISPR-GPT在协助研究人员进行实验设计方面的能力。结果从四个不同方面进行评估:准确性、推理、完整性和简洁性。准确性反映CRISPR-GPT是否能提供关于CRISPR研究和方法学当前状态的准确信息。推理评估CRISPR-GPT是否能对建议的设计提供有见地的、有充分依据的解释。完整性确保使用者收到CRISPR实验设计所需的所有信息。最后,简洁性确保CRISPR-GPT向使用者提供与设计任务直接相关的信息,不必要的信息最少。所有评估者都被要求对三种模式下的任务集在这四个方面进行1(差)到5(优)的评分。使用等效的提示生成ChatGPT 3.5和ChatGPT 4.0的回应,并使用相同的标准进行评分。

该报告观察到,在该报告设计的任务集中,CRISPR-GPT在所有三种模式下的准确性明显高于通用LLM-agent,因为该报告在CRISPR和基因编辑领域采用了大量领域知识来确保CRISPR-GPT agent的鲁棒性。而ChatGPT 3.5和ChatGPT 4.0等通用LLM agent产生的回应由于已知的问题(包括领域知识不足和幻觉)而包含更多细微的事实错误。同时,该报告发现CRISPR-GPT和通用LLM agent在不同的任务集上都表现出良好的推理能力。对于"自动模式"相关的任务,CRISPR-GPT表现出更好的推理能力,这可能是由于agent中编码的更好的提示技术。正如该报告所预期的那样,"完整性"是通用LLM-agent在执行基因编辑实验设计任务时的主要问题。它们通常可以为设计提供一般性指导,但由于缺乏领域知识和外部工具,无法提供设计细节。相反,CRISPR-GPT在设计任务中表现出更好的"完整性"性能分数,使使用者能够仅根据CRISPR-GPT提供的信息执行基因编辑实验。值得注意的是,ChatGPT 3.5和4.0在"问答"模式下的"完整性"性能分数优于CRISPR-GPT。这种结果是由于"完整性"和"简洁性"之间有意的权衡。通用LLM-agent直接生成的答案通常包含大量无关信息,以便向使用者提供更完整的回应。这通常会让使用者感到困惑,难以抓住关键信息。在这种情况下,该报告有意设计CRISPR-GPT在所有不同模式下向使用者提供简洁准确的答案,因此CRISPR-GPT在"简洁性"性能分数

上表现一致更好。

总的来说,通过专家的评估,该报告发现CRISPR-GPT在各个方面都表现出显著优于通用LLM-agent的性能,用于基因编辑实验设计任务。尽管如此,CRISPR-GPT在更复杂的基因编辑场景和罕见的生物案例中遇到了困难。未来可以通过更多最新的领域知识和更好的外部工具集来进一步扩展和改进它。

CRISPR-GPT通过真实世界的应用展示其功效
为了展示CRISPR-GPT在协助研究人员设计基因编辑实验方面的能力,该报告通过与CRISPR-GPT的持续互动,在人类A375细胞系中进行了基因敲除实验。

在这个实验中,该报告的目标是在人类A375细胞系中分别敲除4个基因(TGFBR1、SNAI1、BAX、BCL2L1)。首先,该报告选择"元模式"从头设计基因敲除实验。按照CRISPR-GPT中选择CRISPR系统的指示,该报告选择了AsCas12a,因为该报告希望进行多位点编辑并降低潜在的非靶向编辑率。对于在A375细胞中递送CRISPR系统,该报告遵循CRISPR-GPT的建议,使用慢病毒转导,以确保Cas酶和sgRNA的稳定表达。

然后,基于这些信息,该报告能够获得Cas12a质粒(之前已有)。在设计sgRNA时,该报告特别针对人类TGFBR1/SNAI1/BAX/BCL2L1基因,充分意识到CRISPR-GPT提出的人类基因编辑的伦理影响。CRISPR-GPT从已发表的文库中为每个基因提供了4个sgRNA序列,所以该报告能够订购合成序列。

随后,CRISPR-GPT提供了gRNA克隆的方案。然后提供了详细的说明,使用必要的质粒和病毒包装组分,通过磷酸钙转染HEK293T细胞来产生慢病毒。在此之后,该报告完全按照CRISPR-GPT生成的方案,通过转导过程,包括细胞培养程序、添加慢病毒以及使用聚凝乙烯(polybrene)促进高效转导。为了进行验证,该报告在CRISPR-GPT中选择了新一代测序(NGS)用于突变检测和敲除验证,并遵循CRISPR-GPT agent提供的方案。为了准备NGS,该报告根据方案使用DNeasy Blood & Tissue Kit从细胞中提取基因组DNA。对于PCR引物设计这一关键步骤,该报告向CRISPR-GPT提供了详细的序列信息,它自动返回了一组用Primer3设计的引物,专门用于扩增目标位点。在该报告实验的最后阶段,CRISPR-GPT建议该报告在PCR产物上连接Illumina接头用于文库构建,并强调有必要用NCBI BLAST检查引物特异性。这最后的验证步骤对于防止错配和确保测序结果能准确反映预期的基因组编辑至关重要。

最后,该报告分析了NGS的数据,观察到在所有4个靶基因上都有持续高比例的预期编辑结果。通过这一过程,CRISPR-GPT提供了:(1)CRISPR系统选择(2)向导RNA设计(3)递送系统推荐(4)质粒和病毒载体选择以及克隆方案(5)组织培养、细胞转导程序(6)细胞收集和基因编辑效率量化方法(7)测序引物设计和读出验证方案。因此,该报告的专业知识与CRISPR-GPT的计算指导之间的动态互动,对执行一个精确且在伦理上审慎的基因编辑实验至关重要。

安全和伦理问题
当使用AI工具来指导基因组编辑时,会出现安全和伦理问题,从非法改变人类基因组的风险到涉及使用者基因组信息时的隐私问题。

减轻人类可遗传编辑的风险
CRISPR-Cas9等技术已经使改变人类基因组成为可能,这带来了一些伦理和安全风险。特别是,生殖细胞和胚胎基因组编辑带来了许多伦理挑战,包括是否允许使用这项技术来增强正常的人类特征(如身高或智力)。基于对伦理和安全的考量,生殖细胞和胚胎基因组编辑目前在美国和许多其他国家是非法的。为了确保CRISPR-GPT遵循可遗传基因组编辑暂缓令中给出的指引。

CRISPR-GPT采用一种机制,以确保在所有任务中,使用者无法绕过现有步骤询问他们正在编辑哪个生物体。agent会检查编辑目标是否属于人类组织或器官。如果发现编辑目标是人类器官,将触发以下解决方案:当使用者继续设计人类基因编辑实验时发出警告说明。提供这个国际暂缓令的链接并注明。要求使用者在继续之前确认他们理解风险并已阅读这个国际指南。

保护使用者基因组数据隐私
其他问题与使用者数据隐私有关,特别是当使用AI工具可能交换人类基因组序列信息时。该报告遵循医疗保健中的数据隐私和HIPAA隐私规则。尽管基因组规模的序列从根本上与身份相关,但最长20 bp的DNA片段被认为是安全的,无法识别人类身份。CPISPR-GPT配备了以下功能,以避免向公共LLM模型提供任何可识别的私人人类/患者序列。具体而言,该报告的解决方案是:

CRISPR-GPT永远不会在服务器上存储任何可识别的长基因组序列,这可能会泄露患者的私人信息。
CRISPR-GPT实现了一个过滤器,在将提示发送到外部LLM之前,检测提示中是否包含任何≥20bp的A/T/G/C/U序列。在检测到这种序列存在后,agent会发出错误警告,要求使用者手动删除输入中的此类序列。通过这种方式,避免将此类敏感信息泄露给公共LLM模型。
CRISPR-GPT agent展示了LLM在自动化和增强复杂生物学实验设计过程方面的非凡潜力。通过无缝整合LLM与领域知识、外部工具和模块化任务执行系统,CRISPR-GPT使研究人员能够以前所未有的轻松和效率来驾驭CRISPR基因编辑实验的复杂领域。CRISPR-GPT的多模态功能包括元任务流程、互动提示和随需问答支持。研究人员可以利用agent的专业知识来规划和执行基因编辑实验,从CRISPR系统选择和向导RNA设计到自动起草详细的方案和验证策略。这种简化的工作流程不仅加速了设计过程,而且降低了出错和疏漏的风险,从而提高了研究成果的质量和可重复性。

虽然在化学等其他科学领域存在LLM agent,但涉及活体材料的生物学实验的复杂性需要一套不同的考量。与通常遵循明确方案的化学反应不同,生物学实验需要复杂的程序,以考虑活体系统的动态特性。CRISPR-GPT通过提供针对具体实验环境量身定制的详细、分步指导来解决这一挑战,确保研究人员能够有效地驾驭使用活细胞和有机体的细微差别。

此外,CRISPR-GPT的自由风格提示和即时问答能力使其有别于许多现有的agent。研究人员可以提出非结构化的查询,并获得情境化的回应,促进与agent更自然、更直观的互动。这一特性在面对实验过程中可能出现的意外挑战或不可预见的情况时非常有价值,使研究人员能够寻求及时指导并根据需要调整他们的方法。

尽管CRISPR-GPT具有令人印象深刻的能力,但它并非没有局限性。虽然agent可以设计单个组分,如向导RNA和引物,但它目前缺乏从自然语言输入生成完整构建或载体的能力。这一局限性突显了一个未来发展的领域。例如,基因编辑的模块化设计领域的最新进展,如FragMID,可以与CRISPR-GPT整合,实现LLM赋能研究人员探索和优化CRISPR设计和客制化策略的潜力,从而带来更高效的基因编辑。

展望未来,CRISPR-GPT与自动化实验室平台和机器人技术的整合蕴藏着巨大的前景。通过连接计算设计和物理执行,研究人员可以利用agent的专业知识来编排端到端的自动化实验,最大限度地减少人工干预,加速发现的步伐。

https://arxiv.org/pdf/2404.18021

个人见解
从第三方角度来看,这篇题为《CRISPR-GPT:一个自动化基因编辑实验设计的大型语言模型Agent》的论文无疑代表了人工智能技术在生物医学领域应用的一个重要里程碑。

本文的核心创新点在于巧妙地将大型语言模型(LLM)与领域知识和外部工具相结合,构建了一个名为CRISPR-GPT的智能agent,以协助研究人员设计和优化CRISPR基因编辑实验。通过采用多种互动模式,如专家定义的元任务流程、自动任务分解、自由问答等,该系统将复杂的实验设计过程分解为一系列易于管理的步骤,大大降低了技术门槛。

这一成果的意义首先体现在其对基因编辑技术的普及和应用的推动作用上。CRISPR作为一项革命性的生物技术,其在基础研究和应用开发领域的前景不可限量。然而,设计一个成功的CRISPR实验对于许多科研新手而言却是一个巨大的挑战。CRISPR-GPT的出现为他们提供了一个智能助手,引导他们以最优的方案和流程开展实验,有望显著提升这一领域的研究效率和产出。

同时,这项研究也为利用人工智能和大数据来驱动科学发现勾勒了一幅蓝图。通过无缝整合LLM的语言理解和推理能力,专家知识库的权威解释,以及各种任务专用的外部工具,CRISPR-GPT建立了一种全新的人机协作范式。这种范式不仅可以在基因编辑领域复制,也可以推广到其他高度专业化、任务复杂的学科领域。可以想见,随着这一模式的成熟和发展,我们有望看到越来越多的"AI科学家"在各个前沿领域崛起,成为人类专家强有力的助手和伙伴。

当然,本文也坦诚地指出了这一方案的局限性和有待完善之处。比如CRISPR-GPT目前还不能直接生成端到端的实验流程,在处理一些复杂任务时也会遇到困难。这些问题为未来工作指明了努力的方向,比如进一步扩充其任务编排能力,引入更丰富的知识和工具,并在更多场景中予以测试和打磨。

此外,在充分肯定这一突破性成果的同时,我们也要理性看待其局限性和潜在风险。在技术层面,类似系统的有效性和可靠性还有待在更广泛的实验中得到严格验证。在伦理层面,虽然CRISPR-GPT已经设置了一些基本的防护措施,但随着应用场景的拓展,我们恐怕还需要更细致入微、更具前瞻性的伦理规范框架。在实用层面,这类智能工具能否真正融入科研的日常工作流程,提高生产力的同时又不带来过度依赖等问题,也是一个值得关注和研究的问题。

总的来说,CRISPR-GPT作为将LLM技术引入生物医学研究的一次重要尝试,其价值和意义不容小觑。它为攻克疾病、增进人类福祉提供了一个全新的思路和工具,展现了人工智能在赋能科学探索方面的巨大潜力。同时,它也为其他学科应用类似模式提供了有益的参考和借鉴。未来,随着技术

的不断进步,伦理的持续审慎,以及跨领域协作的深入推进,相信这样的智能辅助系统必将在更广阔的疆域上大放异彩,开启科学研究的智能化新纪元。我们有理由对这一前景充满期待。

总结一下,这篇论文描述了一个名为CRISPR-GPT的突破性AI系统,它巧妙地将大型语言模型与领域知识和外部工具相结合,旨在协助研究人员设计和优化CRISPR基因编辑实验。通过采用多种互动模式,如专家定义的元任务流程、自动任务分解、自由问答等,该系统大大降低了基因编辑实验设计的技术门槛,有望显著提升这一前沿领域的研究效率和产出。

同时,这项研究也为利用人工智能驱动科学发现提供了一个全新的思路。CRISPR-GPT所建立的人机协同范式,不仅可以在基因编辑领域复制,也可以推广到其他高度专业化、任务复杂的学科领域。随着这一模式的不断成熟,我们有望看到越来越多的"AI科学家"在各个前沿领域崛起,成为人类专家强有力的助手和伙伴。

当然,CRISPR-GPT目前还存在一些局限性,如无法直接生成端到端的实验流程,在处理某些复杂任务时也会遇到困难。此外,类似系统的有效性和可靠性还需要在更广泛的实验中得到严格验证。在伦理层面,我们还需要更细致入微、更具前瞻性的规范框架来引导这类技术的应用。

尽管如此,CRISPR-GPT作为将LLM技术引入生物医学研究的一次重要尝试,其意义却不容小觑。它为攻克疾病、增进人类福祉提供了一个全新的思路和工具,展现了人工智能在赋能科学探索方面的巨大潜力。相信随着技术的不断进步,伦理的持续审慎,以及跨领域协作的深入推进,这样的智能辅助系统必将在更广阔的疆域上大放异彩,开启科学研究的智能化新纪元。

作为生物医学和人工智能领域的从业者,我对CRISPR-GPT这样的突破性进展感到无比振奋。它不仅让我们看到了基因编辑技术民主化的曙光,更展现出人机协同在推动科学发现方面的巨大前景。当然,将如此强大的工具应用于现实世界,我们还需要在技术、伦理、应用等层面予以周全考量,确保其安全、可控、可信的发展。

我相信,随着学界和业界的共同努力,这样的智能辅助系统必将为科研注入新的活力,加速生命科学乃至其他领域的突破性进展。作为这一浪潮中的一员,我也将继续探索人工智能在生物医学领域的应用,力争为构建"人机协同"的未来科研范式贡献自己的一份力量。让我们携手并进,以智慧和责任心引领科技向善,共创一个更加健康、美好的世界!