UIUC罗宇男:交叉学科中的人工智能和科学发现

不到现场,照样看最干货的学术报告!

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。


人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术、paperweekly作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。2020年8月29日,第18期“AI未来说·青年学术论坛”(“AI+X”领域专场)以“线上平台直播+微信社群图文直播”形式举行。UIUC罗宇男带来报告《交叉学科中的人工智能和科学发现》。

UIUC罗宇男的报告视频

罗宇男的研究方向是AI+X,人工智能、药物发现、计算生物学、化学、农业等等领域。总的来说人工智能是很有效的技术,能够挖掘数据当中存在的信息,转化成为知识,从而提供不同领域的预测甚至决策。本次论坛他为大家介绍了几个方面的人工智能和交叉学科的研究。

交叉学科中的人工智能和科学发现

他的报告首先是AI和生物方面,其中第一个例子是结合AI的蛋白质工程以及基于数据驱动的分析。生物化学有一个重要的领域就是蛋白质工程,目的是寻找或者优化自然界当中现存的蛋白质性质。比如抗体也是一种蛋白质,现在如果想要发现或者设计结合更好的抗体,比如更好地结合新冠肺炎的病毒,就需要优化自然界现有的蛋白质使其拥有更好的性质。因此研究者们可能会遇到这样的问题,就是怎样设计一个蛋白质的序列,使其具有某种想要的信息。这是一个非常难的问题,蛋白质序列的影响非常大,比如哪怕一个蛋白质有五个氨基酸,它的可能的序列就达到几十万中,然而自然界中的很多蛋白质所含氨基酸会更多,可能会超出计算机所能穷举的最大数目。

2018年诺贝尔化学奖获得者Frances提出的一种方法是蛋白质定向进化,随机进行蛋白的突变,比如氨基酸从A变成B,对于具有突变的蛋白在实验室测量某种值,可以衡量这个性质的好坏,最后选择性质比较好的部分作为下一代的母本蛋白质并不断迭代,就像一个优胜劣汰的过程,经过几轮迭代之后就可以得到性质很好的蛋白。

这个方法在效率上受到一定的限制,因为它突变的过程是完全随机的。从研究计算的角度来说,就有很多可以优化的地方,一种直观的方法是可以把测量这个蛋白质的性质部分从实验室的传统非常耗时耗力的流程替换成计算模型,比如用神经网络来预测某个突变后蛋白质的性质,这样在一定程度上提升整个实验的效率。有了这个模型以后,就可以结合这个模型设计出具有某种性质的蛋白质序列,有了这个序列就可以合成出这个蛋白质。罗宇男等人从这个角度出发设计出了人工智能的模型,目的就是加速或者协助传统生物实验流程当中比较耗时耗力的部分,从而能够加速整个蛋白质进化的基础。他们主要结合了两个部分的信息:一个是全局信息,类似自然语言处理的语言模型,但是是在蛋白质上训练的模型,用于蛋白质在全局上面的相互依赖的关系。另一个是生物信息,比如生物蛋白质两个氨基酸之间可能会有协同进化的效应,因为进化的过程当中整个氨基酸并不是独立进化的,可能会有空间和物理性质上的依赖关系,使得两个氨基酸同时进化,这样就会影响结构,结构就会影响功能。他们发现结合这两种信息的模型能够更准确地预测蛋白质的信息。

除此之外他们还在模拟若干轮次的蛋白质进化。每一轮当中随机突变一些蛋白质,然后用模型预测突变之后蛋白质的性质,选择比较好的那些作为下一轮突变,重复三轮以后罗宇男发现蛋白质性质的分布是越来越朝着数值高的方向推动,也就是说这个模型在不断地提升蛋白质变异后的性质。他们也在实验当中对计算模型进行生物实验验证,通过这个神经网络推荐一些比较好的蛋白质的变种,TEM-1就是细菌当中某种抗药性的蛋白质,然后他们和生物学家合作,在实验室当中对这些蛋白质变种进行合成,并测量抗药性。结果发现模型预测的蛋白质变种的抗药性都高于自然界现存的蛋白质性质,甚至优于训练数据当中最好的样本,说明这个模型成功地发现了性质优于自然界现存蛋白质的蛋白质变种。这个模型可以用来设计更多具有更好性质的蛋白质,比如基因编辑当中的酶和化学催化剂。

罗宇男讲到的第二个例子是分析新冠病毒的多样性。他们的这项工作是对几百个患者进行研究,探究冠状病毒的多样性,包括在患者的体内以及患者群体层面的病毒多样性。现在的方法大多假设一个病人只携带一种基因型的病毒。然而一个病人可能携带多种病毒,同一个病毒在病人体内也可能发生变异进化出不同基因型的病毒。罗宇男等人通过分析现有的数据发现病人携带多种基因型病毒的现象并不罕见,62%的样本中都显示了一个样本内部带有多种病毒基因型的现象。研究病毒在患者内部和群体间的多样性有助于更好地理解这个病毒的特征,重构这个病人病毒传播的路径,最后能够更好地实现更精准的接触追踪,这些都是这个项目的直接应用。

于是,罗宇男等人开发了一个算法,来从测序数据中解析出同一样本内部中的不同毒株。他们基于冠状病毒基因上的41个突变定义了冠状病毒的不同毒株,可以解释整个数据库当中94%样本的多样性。他们的算法基于一个经典的机器学习算法——非负矩阵分解,但是要求分解后的矩阵具有一些限制,比如矩阵A代表某一个毒株内是否存在某种变异,矩阵B代表每个样本每种毒株代表百分之多少。利用这个模型,罗宇男等人对现有的新型肺炎病人的测序数据进行分析,获得了一些有意思的结果。

比如在美国患者中,第三类分支占到绝大多数,而澳大利亚的毒株就非常多样化,每种毒株都有一定程度的体现,这是关于病毒分布的结果。他们也有考虑在进化上的分布,利用测序数据构建的进化树和他们发现的变异毒株结构也非常相似的。

此外,他们发现这些变异大都处于蛋白质的表面,而且对蛋白质稳定性的影响很小。在能够改变氨基酸类型的突变中,92%都是处于蛋白质的表面上,他们也是从数据出发找到了一些之前文献当中还没有被发现的新的分析结果,然后为后续的研究提供了一些思路。

接着罗宇男介绍了人工智能在药物发现当中的工作。药物的研发是非常漫长、耗时,需要花费巨大资金的过程,往往成功率也是非常低的。他们一直在想能否用AI的技术更高效地发现药物的新用途。于是他们构建了一个大规模的异构生物网络。

基于这个数据库设计机器学习的算法,来对每个网络当中的每个节点做出低维向量表示,解决网络当中高维度高噪声的问题,从而进行药物和靶点蛋白质之间相互关系的预测。这种方法取得了比现有方法更好的预测效果,图中展示了他们的算法预测中比较靠前的药物和靶点蛋白之间的作用关系,其中大部分能够在之前的文献当中找到相应的论证,对于后面文献当中没有发现、没有找到印证的预测,他们和药物学家合作进行了实验,并证实了他们预测的三种药物和蛋白之间的新作用关系的确是存在的,而这是之前文献中并没有被发现的。

最后一部分是关于智能农业相关的研究进展。罗宇男及其合作者想要基于海量卫星遥感数据构建一个平台,用这个平台代替传统需要大量的人力、物力、财力实现的农田监测。

这个过程当中就有很大的挑战,这个平台是想利用卫星图片,然而现有的卫星图片要么空间分辨率高、拍摄频率低,要么拍摄频率高、空间分辨率低。所以罗宇男等人开发了一个算法,将不同时间和空间分辨率的图片整合在一起,生成一个时间和空间分辨率都很高的图片,通过这种方法就可以做很多的事情。比如利用这种数据可以结合计算机视觉的人工智能的模型,可以对每一块农田作物的种类进行预测,对灌溉水的需求量进行预测,罗宇男和他的合作者们在这一方向上发表了多篇了论文,同时他的合作者还设计了一个平台,使得大家可以非常准确地实时观测每一块农田的农作物信息。

 

(整理人:何嘉伟)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值