Mila唐建专访:Bengio领路,缘起生物梦,AI如何变革生物制药?

c2ba13f884be381dbde117fe4d8d6203.png

【栏目:前沿进展】近年来,人工智能赋能药物研发已经势如井喷,与此同时,药物研发平台的开发和应用逐渐成为学术界和产业界的关注重点。

为了缩短药物研发周期和难度,充分发挥老药新用的作用,降低科研人员开展药物研发的门槛,此前,Mila唐建(青源会会员)团队开源了基于机器学习的药物研发平台TorchDrug(torchdrug.ai),意在创建开放包容的新药研发开源社区,即使是没有过多交叉领域背景的研究者也可以快速上手。

从微软到加入Mila团队担任助理教授,唐建博士一直在从事图表示学习的研究。出于对生物的热情,唐建发现分子、蛋白质、医疗知识图谱等都是图结构数据,进而慢慢意识到图表示学习在生物医药领域的巨大潜力。

刚到Mila时,Yoshua Bengio教授在分子建模的研究上给予了唐建很多建议。自从去年COVID爆发以来,Bengio教授对AI药物研究也萌生了很大的兴趣。二人的交流也从早期的推理相关内容慢慢转到药物发现上。

21世纪是生物的世纪。从分子、蛋白质到医疗知识图谱,透过海量的图结构数据,AI模型和数据集在不断改写着生物制药的格局。唐建博士在近期智源社区的采访中向我们讲述了他从机器学习领域一路走到生物制药的历程、TorchDrug平台的建设问题、AI赋能制药,以及对商业落地的思考,以下是采访全文。

3c54d8d43541d531ce07369f7d505f51.png

唐建,加拿大蒙特利尔学习算法研究院 (Mila) 以及蒙特利尔大学计算机学院、商学院助理教授、博士生导师, CIFAR讲席教授。主要研究方向为:图表示学习、图神经网络、知识图谱、药物发现。曾获得机器学习顶级会议ICML2014的最佳论文以及数据挖掘顶级会议WWW‘16的最佳论文提名。发表了一系列在图表示学习领域的经典论文包括LINE、RotatE等。他是机器学习顶级会议ICML以及NeurIPS领域主席。

受访对象:唐建(加拿大Mila实验室助理教授、青源会会员)

采访&整理:李梦佳  马瑞军

01

走上新药研发之路,与Bengio的不解之缘

Q:首先请您谈一谈和Bengio教授的合作经历。

A:Mila的核心教师团队(目前共29位https://mila.quebec/en/mila/team/?cat_id=1200)每个月都会有例行的管理例会。在这个例会上我们会跟Bengio教授和Mila的其他教授进行Mila整体管理上的交流。在研究上,早期与他讨论比较多的是推理相关的内容,特别是system 2 reasoning。最近的一个关于知识图谱推理的合作成果RNNLogic发表在ICLR'21 上。近期我们在Drug Discovery方面也有很多的交流。自从去年COVID以来,Bengio教授对AI药物研究也很感兴趣,其团队有很大的一部分精力在drug discovery。

4ecde9403453b1e268b75d33799ad604.png

Q:在Mila,Bengio教授给予的最大启发是什么?

A:刚到Mila时,Bengio在分子建模的研究上给予了很多建议。Bengio当时虽然还没有开始做医药研究,但他本人兴趣广泛,对气候变化十分感兴趣,已经开始从事关于材料发现以及分子建模的相关研究。COVID肆虐后,Bengio教授也逐渐开始在医药研究上投入大量的精力。

(补充,Bengio曾于2019年的NeurIPS会议上,和机器学习大神们聚集在一起,探讨人工智能如何应对气候变化对地球生命的影响。研讨组包括图灵奖得主、蒙特利尔大学教授 Yoshua Bengio;谷歌人工智能主管 Jeff Dean;LandingAI创始人 吴恩达;康奈尔大学教授 Carla Gomes以及斯坦福统计学教授 Lester Mackey。Bengio认为,若是要更好地应对世界紧迫挑战的问题,关键步骤就是改变对人工智能研究的价值观。)

Q:您在什么契机下走上了药物研发的道路,都有受到哪些业界人士的影响?

A:我是通过自己的摸索一路走到药物研发的。在博士阶段所作的工作是传统机器学习的主题模型研究,2013年深度学习发展逐渐加快,13年年底开始转入深度学习行业中,因为对social network数据和图数据很感兴趣,所以并没有选择当时比较热门的CV、NLP等热门领域,而是选择将深度学习用于图结构数据的研究,做图表示学习。从微软,到加入Mila团队担任助理教授一直在做图表学习。在研究了图表示学习四五年之后,我当时的感觉是图表示学习需要找到更好的杀手级的应用,而不是仅停留在社交网络的分析。我本身对生物很有情怀,高中的时候老师告诉我们说,21世纪是生物的世纪。我发现分子、蛋白质、医疗知识图谱等其实都是图结构数据,因此慢慢意识到图表示学习在生物医药领域具有巨大的潜力。

02

Torchdrug主打开源,医药图结构、异构数据分析前景广阔

TorchDrug定位药物发现,通过AI赋能药物研发,融合图机器学习(图神经网络、几何深度学习和知识图谱)、深度生成模型,以及强化学习等技术,打造模块全面、接口灵活,容易上手的Pytorch药物研发平台。

平台主要包含以下4个功能:

  1. 最小化领域知识。面向机器学习社区,TorchDrug 提取了大部分领域知识并提供了基于张量的接口,允许用户使用张量代数和机器学习运算来控制生物医学对象。

  2. 数据集与搭建模块。平台模型训练时,采用大量公开数据集,规避数据隐私带来的诸多问题。模块搭建完成后进行标准化处理,增加模块的扩展性和适用性,用户不用编写代码就能调用标准模型,以便有更多的时间和精力去聚焦药物发现的核心问题。

  3. 综合基准测试。目前,开发人员已经完成对该平台的多项药物发现任务的综合基准测试,并提供了热门深度学习架构的系统对比。基准测试结果预计将跟随新模型的进步以激发新的研究方向。

  4. 可扩展的训练和推理。TorchDrug 已经具备较强的扩展性,可以适配多个 CPU 或 GPU 的训练和推理,并且加速方式的切换十分简单,仅需一行代码,即可让用户在 CPU、GPU 或分布式设置之间无缝切换。

Q:Torchdrug平台开发过程中大家是如何分工的,对它的未来您有何期许?

A:Torchdrug是由团队博士生朱兆成、刘圣超、史晨策、张作柏、瞿锰以及多位来自清华大学、北京大学和上海交通大学的实习生共同完成。平台上有很多不同的模块和任务,比如:分子从头设计模块、基于知识图谱推理的老药新用研究等。不同的人参与了不同部分的工作,比如分子性质的预测、逆合成预测或者反预测。

我们现在的平台主要是针对小分子的,大分子比如蛋白质在未来也会发布新的模块。我们希望TorchDrug平台能够成为未来机器学习药物发现主要的开源平台,并促进这一方面的发展。

8b2cbaa70a9fa4342e2b54da8955d3bb.png

Q:图数据自身就具备一定的可解释性,这在药物研发的过程中有哪些帮助之处?

A:一个比较典型的例子是基于医疗知识图谱的药物重定向(老药新用)。基于医疗图谱,我们团队开发了一些具有可解释性的推理算法来进行药物重定向,比如解释为什么一个药物能够用于治疗某一个疾病。

Q:平台所用的数据集是什么样的,如何解决数据隐私的问题?并且在公开数据集上训练得到的模型,在实际应用过程中会出现性能下降,该如何解决?

A:我们平台为了更快的推进AI在药物研发的发展,所以更多的注意力集中在算法这个方面的研究,所以我们用的数据集全是公开数据集,学术界可以通过公开数据集评价和测试算法的优劣。对于有自己私有数据集的用户,可以使用私有的数据集进行训练,但是平台并不会保留私有数据集,就像你可以在Tensorflow或者Pytorch平台上使用私有数据集训练自己的模型,但是Tensorflow或者Pytorch平台并不会下载或者存储你的数据集一样,这样可以有效解决数据隐私的问题。

目前,我们平台研发的模型是使用公开数据集训练得到的,公开数据集具有噪声较多、数据量较少的问题,所以在实际应用时会将公开数据集和私有数据集联合使用。药厂一般不可能只有公开数据集,他们会在研发、生产的过程中生成自己的私有数据集,在公开数据集上得到模型后,还会用药厂自己的数据集再重新训练。

Q:请您谈谈AI模型和数据集对于AI医疗发展的帮助。

A:近年来随着基因测序等生物技术的成熟,生物医药领域的数据正在快速地增长,给AI提供了巨大的机会。当然生物医药领域的数据也有一些自己独特的特性。首先是图结构数据或者3D结构等结构不规则的数据很多,比如说小分子、蛋白质以及医疗知识图谱等;其次,数据格式会有结构数据、图像数据、自然语言数据等等多种模态;此外,数据的噪声也很大,实际上有很多数据是在不同的设备上获得的,有batch effects。所以对机器学习学者而言,研究如何有效处理海量、大噪音、多模态且异构的数据,研究的前景很广阔。

Q:如何看待近两年工业界也开始参与到AI算法原始创新研究的大军中?AI的原始创新是由学术界领导还是产业界和学术界共同努力的结果?

A:现在不仅是在AI医药领域,其实在AI的大部分领域,近年来都是越来越多的企业参与到AI算法原始创新的研究中来,比如说AlphaFold就是由DeepMind首先做出来的,其实这种现象已经很常见了,例如谷歌内部就有很多大的研究院或者研究中心就有很多顶尖的研究人员,并且还拥有大量的计算资源,所以这个现象不用惊奇。但与此同时,很多原始创新还是来自学术界,例如Attention、GAN等模型依然出自学术界。所以,未来我觉得应该是学术界和工业界齐头并进、相互补充的发展态势,可能未来的原始创新不仅来自学术界也会来自产业界。

Q:如何弥合产业界和学术界之间的差距,二者之间对于前沿技术的侧重点在哪里?和药厂等产业界是如何合作的?

产业界和学术界之间存在一定的差距,可以通过密切的学术交流,将学术界最前沿的技术分享给产业界,让产业界紧跟最新技术,比如说在我们Mila,就会有很多工业界的成员,当我们有最新的技术成果时就会分享给他们。

在学术界做的一些算法相较实际都有一定的简化,但在实际的产业落地过程中,每一个实际问题在研究的过程中都有其特殊性,所以需要在学术研究的基础上做一定的修改或者改进。

药物从研发到生产需要经过新药研发、临床试验和审批三个过程。在这个过程中,我们主要负责新药研发,这个过程会和药厂合作,合作的形式比较多样,例如和他们有密切的交流,以及协助药厂研发新药。新药出来后的临床实验和新药审批由药厂负责,整个流程中,药物研发占据大部分时间。

Q:未来,对AI开源社区的设想是什么,社区面对的用户有哪些?

A:TorchDrug是一个既针对AI研究,也针对生物医药的开源社区。所以,对于那些掌握AI技术并对药物研发感兴趣,但是在药物研发方面没有很深研究的学者和团队来说,平台里面提供了很多公开数据集,以及benchmark,可以很好的帮助他们迅速了解药物研发有哪些比较重要的任务,从而快速上手,不需要很多的交叉领域知识。对于传统的生物医药的研究者和团队来说,他们对AI的算法没那么熟悉,我们的平台里面提供了很多直接可用的算法。

对于工业界也是一样的,比如对于一些想要做生物医药研发的创业公司,也可以利用TorchDrug,因为平台上有很多药物研发的任务和算法都已经实现。

03

老药新用:SARS的药能不能治疗COVID

Q:图表示学习,图神经网络等AI技术是怎么具体服务于药物研发的,它是作用于药物研发周期的哪个阶段?

A:药物研发过程中,其实有很多可以表示成图数据结构,比如小分子、蛋白质和医疗知识图谱等都可以表示成图数据结构。具体应用到的场景主要有:

药物研发基本上可以分为重新设计一种新分子和老药新用两大类方法。在第一大类,重新设计新分子的任务中,常见的研究方向有:一个是药物从头设计,设计一种新的分子结构,这个过程中需要预测新分子的化学性质和一些生物上的性质。另一个是从头优化和设计一种分子,比如需要做逆合成的预测,如果我们设计出一种新分子,但是分子在现实中是不存在的,就需要寻找一些反应物,通过反应物合成分子结构。这几个任务都是关于分子的,我们说分子可以表示成一个图结构,所以图表示技术还有图神经网络就可以自然而然用到第一大类任务中。

第二大类,我们叫老药新用,就是在制药的时候,不是完全去设计一个新分子,而是当遇到新病后,首先会查看目前已经被批准可以使用的药中是否有可以治疗新病的老药,比如COVID现在是比较棘手的新病,我们不可能在短时间内开发出一款新药,因为开发一款新药需要十年以上的时间,所以我们的做法是把以前用于治疗SARS的那些药拿出来,看看它们能不能去用于治疗COVID。

在老药新用这个过程中,最重要的数据是医疗知识图谱,因为我们关心的是不同的医疗实体之间的关系,比如药、靶点和疾病之间比较复杂的知识图谱关系,通过这个知识图谱关系我们可以预测药跟疾病是否存在链接,如果存在则说明对应的药是有作用的。这时候,医疗知识图谱的技术就可以使用了。

Q:老药新用在COVID治疗药物寻找的过程复杂吗?AI在这个过程中起到了哪些作用?

A:AI在老药新用的开发过程中,主要的作用为预测。当医疗知识图谱建好以后,比如我输入COVID疾病种类,看看在我的知识图谱中有哪些药与COVID这种疾病之间存在潜在的链接关系,找到推荐的药之后就可以在在临床做验证。本质上,也可以将这个过程理解为推荐问题,相当于给定一种疾病,我从知识图谱中推荐一些药。

知识图谱可以为新病推荐老药的基本思想是当一种药物被验证可以用在一种疾病上后,和这种疾病相似的新病可能都可以使用这种药物去治疗。比如说COVID和SARS比较相似,那我们就首先看看有哪些药是可以用以治疗SARS的,可能这些药中也有一些对COVID有效果。在COVID期间,学术界对于老药新用的研究比较多。与此同时,一种病是很复杂的,老药新用的过程中并不能保证可以完全治愈新病情,需要多种药物共同作用。在治疗疾病的时候需要用一个组合的药物去治疗,需要针对多个靶点才可以治好或者缓解病情。

b3ed1932b9eb30ec4aec44dd40e14bff.png

Q:未来AI制药最想解决的问题都有哪些?从短期和长期分别来谈一谈。

A:现在的AI已经用到了制药的其实各个阶段,比如说AI现在其实已经可以用于帮助去发现靶点,用于设计分子结构,以及在临床上也有一些应用,如筛选一些合适的病人等等。当然最想解决的问题还是药物分子的筛选,目前AI主要针对的是小分子的研发,长期来看基于AlphaFold 2等相关的AI技术会加速大分子的研发。

Q:未来五到十年,AI可以彻底重塑药物研发的流程吗?同时,它还可以解决哪些问题?

A:前面已经提到了,现在生物医药领域数据增长很快,因此AI彻底重塑药物研发的流程是一个是不可逆转的趋势。现在已经有一些成功的案例,比如通过AI的算法,科研人员能够很快发现一些能够进入临床的分子结构,之前可能要十几年,未来可能缩短到一两年。

04

商业落地:大厂有技术,药企有成熟的pipeline

Q:从研究者的角度出发,各个药企和新兴的创业团队都有哪些各自的优缺点?

A:药企有相对成熟的pipeline,在制药领域深耕很久,积累了大量的数据以及经验从新药研发、临床试验和新药审批的整个流程已经打通,经验比较丰富,但是劣势在于对AI技术在药物研发过程中的研究和掌握程度还不足,当然很多大型的药厂也都开始在内部组建AI团队。

对于新兴的创业团队,大的商业模式大多数都是AI+制药。这些团队相对来说AI的经验比较丰富,但是在制药的研发经验都相对缺乏,并且缺乏数据积累。

de3d96c80097b393ef60bbe03a22cc5c.png

Q:国际国内还有哪些比较好的团队?

A:国内很多科技企业也开始进入医药研发领域比如百度成立了百图生科、腾讯、阿里、今日头条也开始涉及。国内更多在工业界,主要集中在大的互联网企业。高校主要有一些传统的做生物医药的老师正在将AI技术引进到制药中。国外,北美欧洲的团队比较多,主要有斯坦福、MIT、哈佛、剑桥等等,加拿大有Mila和多伦多大学的团队,相对说,国外在布局上比较早,MIT的 Regina教授所带的团队的研究AI for drug属于AI在医药领域应用的引领者,国内的很多研究团队最近也开始加快这个领域的布局。

Q:资本对AI制药是否会持续的看好?

A:目前AI制药已经有不少成功的案例,因此资本会持续看好,特别是随着近期AlphaFold 2技术的突破,AI在大分子上的进展会进一步加快。

Q:有什么方法可以避免企业之间做重复的研究工作?

A:组建开源社区是最好地避免重复研究工作的方法。通过开源共享,不同企业都可以贡献以及从开源软件中获利。TorchDrug的创立也正是基于这个目的。


欢迎加入智源社区「医疗健康」交流群

441078bf45f3c7485f70b94fbff1cd7b.png

(更多活动信息将在交流群中同步)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值