“集成多组学数据的机器学习在生物医学中的应用”
一、
理解⼀种疾病的某种现象仅使用⼀种数据类型是远远不够的,随着高通量测序和多组学的快速发展,生物医学研究开始采取多组学技术结合的方法,传统的信息数据处理算法不能满足大数据的处理要求,机器学习作为从数据中进行学习的算法,可以对不同组学来源(如基因组学、转录组学、蛋白质组学、代谢组学)的数据进行综合分析,开发针对个体多样性的多因素预测模型,可以显著减少需要考虑的潜在治疗组合的空间,并识别其他可能被忽视的组合,并可以添加实验验证的步骤,以提供额外的证据,从而证明预测治疗可能存在的有效性。机器学习在疾病亚型识别、生物标志物发现、通路分析以及药物发现及其再利用有着更广泛的前景和应用空间。然而,机器学习的应用仍存在一些瓶颈,人工智能研究项目所需的技能和知识匮乏缺失制约着该方向的发展。本次培训主办方为北京软研国际信息技术研究院,由互动派(北京)教育科技有限公司承办,具体通知如下:
二、培训特色:
- 本次课程共讲授六天,每天六个学时,共36个学时,采用“3+3”教学体系,分两阶段授课,给与学员充分巩固和练习时间;采用在线直播的形式,培训结束提供无限次直播回放视频,发送全部案例代码,建立永不解散的课程群,长期互动答疑。第一阶段旨基础部分讲授三天,旨在让初学多组学联合机器学习体系课程的学员们快速掌握多组学以及机器学习基础理论和在生物医学中的简单应用。适用于前期无编程基础,对机器学习,生物组学感兴趣的学员。第一阶段进阶部分讲授三天,旨在帮助学员提升与掌握多组学联合分析以及深度学习神经网络的应用。适用于前期有一定编程基础(Python),对机器学习有一些了解,对生物组学及在生物医学感兴趣的学员。
- 基础主要讲授内容:机器学习基本概念,明确机器学习方法的适用性,优势等。有针对的讲授python语言基础、数据的基本处理、高维组学数据预处理与分析以及在多组学整合分析中最常使用的几种机器学习模型、深度学习神经网络在多组学分析的应用等。
- 进阶主要讲授内容:生物标志物的挖掘、疾病预测以及生物分子作用机制、前沿神经网络如卷积神经网络、循环神经网络、注意力机制、自编码器、图神经网络在生物组学中的应用、基于基因表达特征建立疾病与小分子药物之间的关联关系,运用转录组学、蛋白组学、机器学习算法进行药物重定位、基于生成对抗模型进行单细胞转录组数据深度特征提取。
- 课程通过基础入门+进阶实例演练的讲授思路,从初学及应用研究角度出发,带大家实战演练机器学习在多组学整合分析中的数据处理、预测模型以及生物学意义阐述等,助力大家掌握多种机器学习算法模型的构建以及在多组学联合分析在肿瘤及慢性病中的实际应用,并介绍当下深度学习算法高维组学数据处理,生物网络挖掘的前沿方法,有助于研究创新机器学习算法解决生物学及临床疾病问题与需求。
三、培训课表:
机器学习及生物组学基础 (提前赠送视频) | 学习目标:对机器学习基本概念进行介绍,让大家对机器学习基本概念有大致了解。明确机器学习方法的适用性,优势,以及局限性等 |
什么是机器学习 机器学习的应用实例 生物组学简介(基因组学,转录组学,蛋白组学,代谢组学) 机器学习在在多组学数据分析的应用 | |
python语言基础 (提前赠送视频) | 学习目标:机器学习主流实现是python语言。学习机器学习之前,有针对性的对python进行系统的学习,数据的基本处理,以方便将来开展机器学习的学习 |
python安装与开发环境的搭建 基本数据类型、组合数据类型 函数、列表 、元组、字典、集合 控制结构、循环结构 Numpy模块——矩阵的科学计算 Matplotlib模块——数据处理与绘图 Pandas模块——csv数据处理与分析 Sklearn模块——机器学习模型基础软件包调用
| |
生物组学大数据预处理与探索分析 | 学习目标:在对高维组学数据进行统计方法分析及机器学习建模过程前,需要对数据进行预处理,如缺失值填补,降维可视化等,大数据预处理与探索分析是检验数据质量与了解数据分布的必要过程。 |
高维组学数据的预处理框架 常用数据预处理方法:缺失值填补,标准化,归一化,对数转化 常用的降维方法,PCA,tSNE等 数据探索分析(EDA)
| |
经典机器学习模型 及多组学应用 | 学习目标:对在多组学整合分析中最常使用的几种机器学习模型进行介绍,总结它们的优缺点及适用范围,通过动手实践快速掌握几种方法 |
线性模型(线性回归、梯度下降、正则化、回归的评价指标) 决策树(决策树原理、ID3算法、C4.5算法、CART算法) 支持向量机(线性支持向量机、可分、不可分支持向量机) 集成学习(AdaBoost和GBDT算法、XGBoost算法、LightGBM算法) 模型选择与性能优化(数据清洗、特征工程、数据建模) Scikit-learn机器学习库的使用
| |
深度学习在组学数据中的应用 | 学习目标:随着高通量组学平台的发展,生物医学研究大多采取了多组学技术结合的方法,不同组学来源(如转录组学、蛋白质组学和代谢组学)的数据可以通过基于深度学习的预测算法进行整合,以揭示系统生物学的复杂工作。在这一部分我们会重点对基于深度学习的神经网络进行系统的讲解,学习常见的神经网络架构在多组学分析的应用。 |
| |
深度学习神经网络基础与实践 | 学习目标:从零开始手动实现一个神经网络,在这一过程中对所涉及的原理进行系统讲解及实践,让大家能够更深刻的理解算法背后的原理以及实现方法,之后有利于对其他机器学习更全面快速掌握 |
深度学习与机器学习区别与联系 Perceptron, 神经元基础 神经网络的梯度下降法与损失函数 神经网络中的前向传播与反向传播 神经网络的模型评估 超参数优化,batch size, learning rate 深度学习工具——Pytorch的使用 深度学习工具——Keras的使用
| |
多组学联合分析,阐明疾病分子机制 | 学习目标:从常见的多组学联合分析策略出发,如转录组+代谢组,蛋白组+代谢组等,对常用的数理统计分析方法进行介绍,之后学习如何利用数据库如KEGG等进行生物功能富集分析,结合机器学习方法进行生物标志物的挖掘,疾病预测以及生物分子作用机制等。 |
常用生物组学实验与分析方法,如转录组学,代谢组学 常用组学数据库介绍,如TCGA,PathBank,HMDB,KEGG Python批量处理组学数据-归一化处理,差异分析,相关性分析 生物功能分析:GO 功能分析、代谢通路富集、分子互作等 基于转录组学的差异基因筛选,疾病预测 基于差异基因,联合代谢组学分析疾病分子发生机制
| |
深度学习神经网络进阶 | 学习目标:学习前沿神经网络如卷积神经网络,循环神经网络,注意力机制,自编码器,图神经网络在生物组学及药物筛选的应用,迁移学习应用等。 |
卷积神经网络基础及其应用(影像组学) 循环神经网络基础及其应用(蛋白组学) 注意力机制基础及其应用 自编码器基础及其应用(转录组学) 图神经网络基础及其应用(代谢组学) 迁移学习 深度学习框架——transformer的应用
| |
深度学习在组学数据药物发现的应用 | 学习目标:基于基因表达特征建立疾病与小分子药物之间的关联关系,运用转录组学,蛋白组学,机器学习算法进行药物重定位。 |
基于生物组学的药物发现基础介绍 药物分子化学特征提取(分子指纹,描述符,分子图) 图神经网络预测药物分子性质 基于胰腺癌差异表达基因进行药物重定位
| |
AI+Science | 学习目标:人工智能领域前沿内容,让大家了解最新的多组学与机器学习领域的研究动态,同时介绍几种更为先进的机器学习算法。 |
集成学习在多组学数据联合分析中的应用 多组学数据库在生物信息网络的挖掘与应用 生成模型在多组学数据的应用与挑战 影像组学进阶,弱监督学习进行影像组学的数据自动标注与分类
|
四、培训时间:
2022年12月02日-12月04日 在线直播(授课三天)
2022年12月16日-12月18日 在线直播(授课三天)
五、培训讲师:
由教育部直属全国重点大学,国家“双一流”A类,“985”, “211”重点建设高校医学院副教授,硕士生导师主讲。中科院院士团队骨干成员,美国Top50大学博士,博士后。近五年发表SCI论文10余篇。主持和参与国家级,省部级自然科学基金项目多项,拥有多年生物医学数据挖掘结合人工智能算法研究经验。主要擅长多组学联合分析在肿瘤等疾病的机制研究和生物多组学的算法开发。
六、报名费用:
每人¥5600元(含报名费、培训费、资料费)
费用提供用于报销正规机打发票及盖有公章的纸质通知文件;如需开具会议费的单位请联系招生老师索取会议邀请函;
七、增值服务:
1、凡报名学员将获得本次所学班的培训书本教材(或PPT课件)及随堂全部案例代码资料
2、提前发送软件安装及理论部分及python语言基础教学视频,培训结束可获得本期全部无限次回放.
3、价格优惠:
优惠一:2022年11月11日前报名并缴费可享受400元优惠(仅限前十名);
优惠二:老客户参加或者推荐学员可享受额外优惠(具体请咨询招生联系人)
4、学员提出的各自遇到的问题在课程结束后可以长期得到老师的解答与指导;
5、参加培训并通过考试的学员,可以获得:北京软研国际信息技术研究院培训中心颁发的《机器学习多组学与生物医学应用工程师》专业技能结业证书;
八、联系方式:
官方联系人: 科宇老师 电话/微信:13520456594
报名QQ: 1446084643
官方网址:北京软研国际信息技术研究院 官方座机:010-56245524
【注】开课前一周会务组统一通知、开课前一天会将直播链接及上机账号发至您微信。