深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答结果进行预测,深度学习,可以进行预测和降维分析。深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动挖掘数据潜在特征得以实现,过去10年,深度学习在计算机视觉、语音识别、自然语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析,运用深度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和转化医学的进度。,近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology等知名国际顶刊上,为我们发表顶刊鉴定了基础。
细胞生物学的相关研究一直受限于数据的完整性和表型的完整性,对应激状态和稳态下的细胞区别观察不够充分。过去五年中,计算机视觉和语音识别领域通过对大量的无标签数据进行学习、建模,很好的解决了数据不足的问题。同样在最近的研究中,机器学习方法使用单细胞数据进行扰动建模也推动了细胞生物领域前进。对于生物学家来讲,无论研究基因、转录本、修饰、蛋白功能,都要频繁的进行人为干预,实现对感兴趣变量的正向或者反向改变,观察细胞表型的变化。整个过程需要对干预工具的构建、导入、实验观察,从而得出表型结论。扰动建模的目的就是想要通过数学模型的建立,通过对已有数据的分析、归纳和总结,对一个分子的功能在没有实验时做出预判,对于生物学家和药物研发者来讲,好的模型一定能够帮助加深对生物机制的理解,推动药物的研发进程
一、深度学习在基因组学应用专题
第一天
理论部分
深度学习算法介绍
1.有监督学习的神经网络算法
1.1全连接深度神经网络DNN在基因组学中的应用举例
1.2卷积神经网络CNN在基因组学中的应用举例
1.3循环神经网络RNN在基因组学中的应用举例
1.4图卷积神经网络GCN在基因组学中的应用举例
2.无监督的神经网络算法
2.1自动编码器AE在基因组学中的应用举例
2.2生成对抗网络GAN在基因组学中的应用举例
实操内容
1.Linux操作系统
1.1常用的Linux命令
1.2 Vim编辑器
1.3基因组数据文件管理, 修改文件权限
1.4查看探索基因组区域
2.Python语言基础
2.1.Python包安装和环境搭建
2.2.常见的数据结构和数据类型
第二天
理论部分
基因组学基础
-
1. 基因组数据库
-
2. 表观基因组
-
3. 转录基因组
-
4. 蛋白质组
-
5. 功能基因组
实操内容
基因组常用深度学习框架
-
1. 安装并介绍深度学习工具包te