python类的使用的生物学应用_当AI遇到生物-深度学习在生物研究中的应用案例列表...

本文列举了深度学习在生物研究中的应用案例,包括药物研发、基因组学和隐私保护等领域。通过深度学习技术,可以预测药物分子性质、识别基因变异、预测甲基化状态,以及在隐私保护和衰老标记预测等方面发挥作用。这些工具和方法展示了深度学习在生物信息学中的潜力和挑战。
摘要由CSDN通过智能技术生成

有可能改变未来的一项技术之一是基因科技,据麦卡锡去年发布的一份报告,预计到2025年,全球将会累计产生10亿人次的全基因组数据,而检测基因的成本将下降到接近为0。考虑到每一个人的全基因组数据将会达到100G, 如何对这些海量数据的解读,现有的生物信息方法基于统计学模型。

本篇文章列出了部分现有的应用深度学习技术处理医学和生物学问题的工具,从这个列表中,可以看出当前深度学习在该领域的挑战和局限,也可以全面的了解深度学习在计算生物学,医学影像及生物信息等学科所具有的广泛应用场景。

深度学习+生物的论文发表数量

发表的论文中所用的模型的比例

1>药物研发类

1)药物研发中需要预测不同结构的分子相互作用的情况,这可以大幅节省研发的时间和金钱成本。通过使用实验验证的数据,Ryan Adams将分子中的原子看成图中的点,将原子间的化学键看成是图的边,使用卷积神经网络预测全新的分子的性质,这项技术又被称为分子指纹,具体参考 https://github.com/HIPS/neural-fingerprint。

药物分子间相互作用的示例图

2)ORGAN 使用强化学习和对抗神经网络来自动化的指导新药的研发过程,该模型能够按照指定的目标,去寻找符合要求的药物的分子结构。这种方法本来是一个通用的框架,适合各种类型的离散型数据,包括文本,乐谱,而这里针对药物研发的问题进行了针对性的优化,参考 https://github.com/gablg1/ORGAN

3)使用强化学习来从头开始生成药物序列,上述的两个工具,还只是辅助药物的研发,而通过RNN和强化学习的结合,https://github.com/MarcusOlivecrona/REINVENT中介绍的工具,可以从一个分子开始,生成只在特定的受体被激活的分子序列,例如针对多巴胺2型受体,这个工具生成的序列经过实验验证,95%都满足需求。

4)DeepChem,这是一个python库,应用了LSTM和卷积神经网络,作为一个可以从小样本中学习的计算化学工具DeepChem不止可以应用在药物的研发,还可以用在材料科学,量子化学的研究中。

2>基因组学

1)DeepVariant,这是一个2016年由谷歌的Deep Mind团队推出的工具,通过将基因数据转化成图像,再通过图像识别的模型,找出基因中有差异的部分,包括基因组上的单碱基突变(SNP)和小的插入缺失(Indel),如下图所示,该工具在升级之后,在多项标准的检测指标中表现的和传统方法相差不多。https://github.com/google/deepvariant

DeepVariant的原理示意图

2)ADAGE ,这是一个用降噪自编码器来分析基因表达数据的工具,所谓的基因表达量数据,就是针对每个基因,在不同的细胞中检测有多少RNA从其中转录,从而得出对应的基因产生了多少影响。通过对高纬度的基因表达量数据进行降维,ADAGE可以识别出不同样本间的相互关系,相比于传统的PCA或ICA的方法,ADAGE能够更准确在表达量都较低的情况下识别出具有生物学意义的基因。

在小鼠的胚胎干细胞上验证后,DeepCpG的表现优于现有的其他软件。甲基化会影响基因是否表达,而诸多启动子和增强子(DNA 序列中的调控区)与其调控的基因之间的相互作用则会影响基因的表达数量。同样是基于深度学习的SPEID [4] 基于基因序列预测启动子和增强子之间的相互作用,这是第一个基于基因序列来预测 启动子和增强子的软件,其效果优于基于基因功能做出的预测。

3)DanQ,DNA序列中编码蛋白质的区域被称为基因区,然而这只占序列总长度的2%,其他的序列有些作用是调控基因的表达,例如让一些基因多翻译一些,让另一些少翻译一些,而更多的部分,则不明确有什么功能。通过深度学习中的RNN或CNN等模型,可以预测基因中那一段是有调控作用的。类似的工具还有Basset DeepSEA DeepBind DeepMotif PEDLA FIDDLE, 从工具的数量上可以看出,这个领域的研究是相对容易出成果,也是具有较大潜力的。

4)DeepCpG,这是一个用来预测不同细胞的基因组上那些未知会被甲基化的工具,甲基化意味着通过表观遗传学(点击查看表观遗传学是什么)改变了基因的表达,而基因上会发生甲基化的位置,和其附近的序列有关,因此可以进行预测。类似的还有针对单细胞测序开发的工具,参考http://www.nature.com/articles/srep19598

3> 其他应用

1)和病人相关的一个重要应用场景是隐私保护,如何保证患者的生理数据能够有效的匿名化,是一个很重要的问题。通过使用对抗神经网络GAN,SPRINT这个工具可以生成和真实的患者数据类似的数据,但这些生成的数据无法对应到具体的患者,这样增加了对患者隐私的保护,可以增加患者共享自己数据的意愿,具体参考https://github.com/greenelab/SPRINT_gan 。

2)预测衰老标记,人的年龄不止是身份证上写的那个,更关键的是你的身体是否还像年轻人那样,Young AI是一个集合了21个深度学习模型的集成模型,只需要通过你体检得出的19项生理指标,这个模型就可以预测你的实际年龄,平均误差只有5.9年,这项工具将可以用于自我评估自己的衰老状况。http://www.aging.ai

3)Deep Heart 通过可穿戴设备检测的心跳数据提前预测中风的发作,从而为用户赢得抢救所需的时间,准确度高达97%。原理是因为心脏及各种动脉,静脉,胃,食管都连在植物性神经系统上,而心率变异率的变化与这些器官的状态有关,Deep heart 就可以通过加速度计和心率变异率的检测,来判断某个人是否有高血压或呼吸异常。

4)生物实验中,每一个批次的实验,甚至是不同的实验操作者,都会引起系统性的误差,这被称为Batch Effect 批次效应。https://academic.oup.com/bioinformatics/article-abstract/33/16/2539/3611270 中提出了使用深度学习而不是传统的统计学来消除单细胞测序中的批次差异的工具,如果一个实验完成了两次,那这两次之中的差异就是批次差异,如果能通过训练神经网络,使其可以重复出两次实验之间的差异,那么就可以通过去除上述的差异来去除批次效应。

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值