自2021年以来,洪亮团队致力于推进通用人工智能在蛋白质工程领域的创新研究,自主研发了 Pro系列蛋白质工程通用人工智能。如果说ChatGPT是通过用大模型理解人类文字排列方式来做智能问答,那么Pro系列则是用大模型理解自然界蛋白质的氨基酸排列方式,来设计性能优越的蛋白质产品。
Pro系列打造了“AI自动设计+少量实验验证”的蛋白质设计新范式,解决了传统“专家经验&大量试错”范式下,蛋白质设计时间长、成本高、阳性率低以及多指标优化难度大等核心问题,在提升企业产品性能、缩短研发周期、降低生产成本以及建立高壁垒专利布局方面发挥了显著作用。
作为AI for Science的典型代表,Pro系列研究成果已在Nature Communication[1]、JCIM[2]等国际权威学术期刊发表,在美国哈佛大学医学院创立的蛋白质突变性质预测榜单 ProteinGym-Substitution上,Pro系列多个**单项指标全球前三。
作为AI for Engineering的先行者,Pro系列将研发模式从依靠专家经验的缓慢试错过程变革为大模型快速精准设计的范式,在一年多时间里,成功交付了20多款不同领域的蛋白设计项目,展现了其在蛋白质工程领域的泛化能力和技术实力,赢得了众多行业头部企业的认可。其中两款生物医药相关蛋白质产品在一年内实现了从小试研究到产业化落地。
第一款是和金赛药业联合开发用于纯化生物药的极耐碱的单域抗体,是全球首个大模型设计的蛋白质产品实现5000升工业化生产,该成果为生物大分子纯化提供全新的解决方案。第二款是和瀚海新酶联合开发的糖基转移酶,用于生产胰腺炎筛查核心物料EPS-G7,打破了国外巨头的长期垄断,将成本降至进口产品的十分之一。以上两个案例是全球第一款和第二款大模型设计并放大生产进入产业化阶段的蛋白质产品。
1.AI for Science典型代表
2020年,AlphaFold 2.0在CASP根据序列预测结构的赛事中摘得桂冠,极大地解决蛋白质折叠问题。近期发布的AlphaFold 3.0又在2.0的基础上拓展了对蛋白质和其它生物大分子以及小分子结合的结构预测能力。
然而一个蛋白质即使拥有正确的结构也不意味着它能有好的功能,例如高活性、高稳定性、高特异性、高表达等等,功能才是一个蛋白质成为产品的关键,也是生物制药、工业酶领域关注的焦点。
因此,洪亮团队开始探索另外一条全新的道路。在近代生物学,蛋白质工程领域都是遵循“序列-结构-功能”的路线做蛋白质设计,但按照“第一性原理”,功能和结构信息都应该包含在序列信息之中,**我们能否直接通过氨基酸序列来设计蛋白质功能?**洪亮团队决定用大语言模型来尝试解决这个问题:
01
首先,收集Uniprot数据库中公开的2.8亿条蛋白质氨基酸序列与结构信息,并通过纵向与横向合作,整合了近5亿条非公开的氨基酸序列与结构信息,以此7.8亿条数据为训练集,用自然语言去学习自然界蛋白质的氨基酸的排列规律[4];
02
其次,利用9800万条标注了蛋白质各种性能参数的标签信息,进行监督学习,让模型学习不同蛋白质性能的特征;
03
最后,对模型的打分结果进行少量实验验证,并将实验数据反馈给模型,通过自研小样本学习方法,用实验数据微调大模型使得它能精准预测蛋白质特定功能性质,最终定向进化出理想功能的蛋白质产品。
经过两年多的探索,洪亮团队自主研发的蛋白质通用人工智能Pro系列开创性地实现了从序列直达功能的精准蛋白质设计,成为AI for Science的典型代表。
相比理性设计、定向进化等传统的蛋白质工程方法,Pro系列不再依赖专家经验,阳性率由不到1%提升至30%,总实验样本数量由成千上万个减少至100个甚至更少,项目交付周期由2-5年压缩至2-6个月,打造了“AI自动设计+少量实验验证”的蛋白质设计新范式。
Pro系列拥有小样本学习[1]、多指标同步优化、多场景应用、多项目并行等工程化能力,其泛化能力也决定了它可以胜任各个领域的需求,是真正的蛋白质工程通用人工智能。洪亮团队在生物信息学和人工智能研究领域的国际权威学术期刊JCIM[2]上发表的最新研究成果也表明,Pro系列人工智能在极少甚至没有实验数据的情况下,在6款蛋白上成功实现了针对特定蛋白质性质的定向进化,这是全球首次经湿实验验证,人类可以通过建立通用人工智能,在极少实验数据甚至无实验数据下实现不同蛋白质特定性质的定向进化。
“以往我们做蛋白质工程,只能针对单个场景下的单个指标慢慢去改,一个工业酶改造三五年很正常,但在过去一年多时间里,我们团队仅用20多位设计和实验人员,便完成了20余款蛋白质设计项目的交付,涉及热稳定性、酸碱稳定性、活性、亲和力、特异性等诸多蛋白质理化性质,覆盖生物医药、营养保健、酶制剂等多个领域,这在以往是绝对不可能实现的。”洪亮自豪地谈到。
2.AI for Engineering先行者
“科研不应该只追求发表高水平的文章或获奖,更要将科研成果由学术的殿堂引入到生产应用中,实现从实验室到产业的跨越,将AI落到工业应用实处。”
抱着这样的心态,洪亮团队将Pro系列人工智能应用在蛋白质工程的各个领域,从创新药研发到体外检测酶原料开发,从工业酶改造到合成生物学工具酶设计,Pro系列不仅经受住了考验,更为产业界提供了多个经济高效的创新性解决方案。
产业化案例一
血液淀粉酶检测关键原料
突破进口垄断
血液淀粉酶增高常见于急性胰腺炎、唾液腺疾病、胆管疾病、糖尿病酮酸中毒及破裂异位妊娠等疾病,血液淀粉酶检测试剂盒的关键原料EPS-G7长期被罗氏诊断全球独家垄断。瀚海新酶作为一家专注特种酶的生物科技企业,成功改造过多种工业用酶和诊断用酶,但对于这样一个需要多指标同步优化的酶,如何在短时间内完成对该酶的改造,满足市场的需求,瀚海新酶研发项目负责人阎振鑫博士想到了一直有技术交流的洪亮。
洪亮团队分析了合成路径后发现,该酶需要同时提升总转糖活力、产物特异性,并降低水解活力,而且产物要烘干称重测量,无法建立高通量筛选体系,传统方法进行改造难度相当大。但在Pro系列人工智能辅助的酶定向进化策略的加持下,双方研发团队通力合作,仅用时4个月,便解决了这一难题:**总转糖活力提升了7倍,产物特异性由60%提升至98%,水解活力降低了33%。**随后,瀚海新酶进行了中试生产工艺的优化,使目标产物产量由3g/L提升至150g/L,成本降至进口产品售价的十分之一。
目前,瀚海新酶的这一产品落地在宜昌将在**本年度实现1000公斤产能,**解决该产品领域的卡脖子问题。
EPS-G7在宜昌落地放大生产
瀚海新酶体外诊断事业部总经理孟旭辉表示:“作为一家特种酶公司,Pro系列人工智能的工程化能力和泛化能力令人吃惊,它帮助我们突破了进口垄断,提升了我国在胰腺炎诊断的自主可控能力和国际竞争力,也为很多类似问题的解决指明了方向,期待未来与洪亮团队有更多、更深入的合作。”
产业化案例二
极度耐碱的纳米抗体作为亲和填料
长春金赛药业有限责任公司(下称“金赛药业”)是国内生长激素龙头企业,为了解决其核心产品金赛增®的纯化问题,金赛药业在4000万的羊驼单域抗体库中,筛选到了一个亲和力不错的单域抗体,作为亲和层析填料分子。但是,该单域抗体耐碱性很差,在强碱(0.1M NaOH,PH 13-14)洗脱过程中蛋白质结构会被破坏,导致其使用寿命短,消耗量大。
提升蛋白质的耐碱性历来是一项极具挑战性的工作,生物大分子层析介质的“皇冠之珠”——Protein A,天然就具有一定耐碱性,即使如此,某国际企业将其优化到生物制药CMC中工业可用也耗费多年的时间。
针对金赛药业的需求,4个月时间后,洪亮团队Pro系列人工智能设计后的单域抗体,在蛋白小试环节被证明,经0.5M NaOH处理24小时以后,断裂比例就由改造前(野生型)的60%减少至15%,这意味着耐碱性有了显著提高;和生长激素的结合能力是改造前的2倍;热稳定性相比改造前提高8摄氏度。
考虑到该产品广阔的应用场景,洪亮团队与金赛药业一起对其进行了中试与产业化开发,在不到一年的时间里,**从一个普通耐碱的蛋白变为极度耐碱蛋白,从没有任何实验数据到成为全球首个实现5000升工业化生产的大模型设计蛋白产品,**成为产业界的奇迹。
金赛药业总经理金磊表示:“洪亮团队这一突破性进展,不仅标志着低成本地使用亲和层析进行纯化成为可能,也意味着人工智能在生物制药领域迈出了从Science研究到Engineering应用的重要一步,对于提升药物生产效率、降低生产成本具有重要意义。”
金赛药业5000升工业化生产
为了进一步加强产学研协同与转化,洪亮团队及其Pro系列人工智能开始与产业界频繁碰撞,解决了一个又一个行业难题,交付了一个又一个产业项目,成为AI for Engineering的先行者,一年内交付20余款蛋白项目,在研项目50余款。
路漫漫其修远兮,期待洪亮团队同其他AI for Science、AI for Engineering探索者们一起,持续推动人工智能技术成为人类认识世界和改造世界的变革性力量。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。