做人工智能或者说计算机科学,和生命科学,是两个不同的语言体系

另外,我们不仅仅可以做小分子的制药,也可以做大分子抗体,以及TCR个性化的疫苗和药物,还有我们看到最AlphaFold在蛋白质解析方面的进展从一维的序列到三维的结构到功能都会加速发展。其次随着高通量自动化的实验发展新的范式正在构成。最近新冠疫苗研发就是一个例子从2020年1月基因的序列被发布之后可以看到3个月之后蛋白质的结构很快就解析出来了1个月之后,病毒和人的交互方式就被解析了很快灭活疫苗研发成果这在人类历史上是最快的一个周期仅不到一年时间我们的疫苗就出来了。

另外一个工作是我们彭健教授所做的根据目前我们已有的肿瘤细胞系上药物数据加上动物的模型、老鼠的模型产生的数据来预测药效因为人类的这些数据比较少可解释型的机器学习能够很快的去迁移到人体内药效预测上右边是乳腺癌患者的实例可以看到用这样的方式不仅仅加快研发速度而且对于物推荐使用的准确度也提高了5倍另外一个例子是我们最近也是彭健教授团队用几何深度学习,先把蛋白质表面的几何表征训练起来然后用深度的图网络来做抗体亲和力预测我们抗体设计不仅仅在过程上加速了很多也已经成功的应用到新冠的中和抗体药物的开发上。

还有我们在基因大数据方面的工作,由兰艳艳教授带领学生完成,我们现在知道基因10%是已经编码的,90%是没有编码的,这些开放区域与转录因的结合以及和目标基因的调控关系,最终会影响生物的性状。但这些数据过去大家都不用,也不知道怎么用。那我们现在通过人工智能最前沿的预训练技术,通过构造一个全新的模态,建立基因数据的有效表达,继而对下游的基因表达预测,剪切预测,治病性预测等任务都有显著的帮助。这个工作刚刚开始,未来还有很大的发展空间。

很重要的是,我们发现这里面有非常大的挑战,我们做人工智能或者说计算机科学,和生命科学,是两个不同的语言体系。过去的合作方式都是比较机械的,或者是生物科学家去调程序包,或者把算法用到生命科学领域。为了打通两个领域,我们做了一系列的工作,从硬件层到数据层,然后到算法层,这些工作叫“破壁计划”。

这方面很好的例子是AlphaFold。首先第一点问题——从蛋白质一维序列到三维结构,它是一个科学的问题;第二点的话,就是每次破解蛋白质的结构之后,大家把数据拿出来共享,就可以看到积累的数据越来越多。

随着数据更多、算力更大、算法更新,我们希望做的是,把这样的一种方法论用到更广阔的领域,不仅是蛋白质,还有抗体、基因预测等方面。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值