理解⼀种疾病的某种现象仅使用⼀种数据类型是远远不够的,随着高通量测序和多组学的快速发展,生物医学研究开始采取多组学技术结合的方法,机器学习作为从数据中进行学习的算法,可以对不同组学来源(如基因组学、转录组学、蛋白质组学、代谢组学)的数据进行综合分析,开发针对个体多样性的多因素预测模型,可以显著减少需要考虑的潜在治疗组合的空间,并识别其他可能被忽视的组合,从而证明预测治疗可能存在的有效性。
基础学习大纲
1、机器学习及生物组学基础
学习目标:对机器学习基本概念进行介绍,让大家对机器学习基本概念有大致了解。明确机器学习方法的适用性,优势,以及局限性等
(1)什么是机器学习
(2)机器学习的应用实例
(3)生物组学简介(基因组学,转录组学,蛋白组学,代谢组学)
(4)机器学习在在多组学数据分析的应用
2、python基础
学习目标:机器学习主流实现是python语言。学习机器学习之前,有针对性地对python进行系统的学习,数据的基本处理,以方便将来开展机器学习的学习2、python基础
(1)python安装与开发环境的搭建
(2)基本数据类型、组合数据类型
(3)函数、列表 、元组、字典、集合
(4)控制结构、循环结构
(5)Numpy模块——矩阵的科学计算
(6)Matplotlib模块——数据处理与绘图
(7)Pandas模块——csv数据处理与分析
(8)Sklearn模块——机器学习模型基础软件包调用
案例实践教学一:利用Python pandas读取组学CSV数据并进行数据读取、转换、保存等
3、生物组学大数据预处理与探索分析
学习目标:对高维组学数据进行统计分析及机器学习建模前,需要对数据进行预处理,如缺失值填补、降维可视化等,大数据预处理与探索分析是检验数据质量与了解数据分布的必要过程。
(1)高维组学数据的预处理框架
(2)常用数据预处理方法:缺失值填补,标准化,归一化,对数转化
&#x