大家好,我是孟浩巍,我们又见面了!
这次疫情,国内的情况终于稳定住了,不过照目前的形式,真的要开学返校估计要等到3月底,甚至四月初。在这个时间段,我们虽然很多人不能返校做实验,但是我们的思考,学习,以及探索是不能停下的!
这次,我特别为大家录制了一门网络课程,供大家学习——《生物信息学入门课:生信中常用的多元统计分析》(课程链接 生物信息学入门课:生信中常用的多元统计分析)
1. 课程设置目的及简要介绍
学习生物信息学,总也绕不过去的便是统计学的学习了。
很多时候,生物信息学数据分析的好坏,很大程度上由一个人的统计思维,或者统计数据分析能力决定。拥有良好统计思维与统计技能的你,往往会成为课题或者项目推动的核心力量。但是无论是大学还是研究生的教学过程中,与生物信息学相关的专业往往会淡化数学尤其是统计的学习与统计思维的培养,给我们以后的工作和深造带来了很多困扰。
说回统计学本身,她其实是一门偏应用的数学学科,属于数学里相对来说比较容易的部分,所以大家一定要克服畏难情绪,在学习统计的时候一定要先告诉自己:统计学是一门非常容易学习的科目。
我之前写过一篇关于生物信息学相关的统计学入门路线的文章,原文相对较长,我在这里给大家简单概括。我认为生物信息学相关的统计主要是分成3个部分.
- 是常见的一元统计,包含最基础的概念及常用检验,简单的线性回归,方差分析等等;
- 是多元统计部分,理论推导比较麻烦,在生信里主要是偏应用,大家熟悉的主成分分析(PCA),奇异值分解(SVD),逻辑斯蒂回归等都是属于这个部分的;
- 是一些常用的其他统计技能,比如与统计学习,机器学习相关的支持向量机(SVM),决策树,回归树,常见降维方法,概率图模型(最常见的如隐马模型),以及一些生信里常用软件内包含的统计学等等。
本次我们的课程主要是把精力集中在多元统计分析的应用层面上。多元统计分析和一元统计的学习不同,更多的是强调实用性,也就是说面对一个真实复杂的数据,真的要应用某种多元统计的技术去解决对应问题。
本次我们录制课程的主要内容主要是以实际应用为导向,在理解数学原理的基础上更重要的是要学会如何应用这些技术去, 所以本次课程除了讲解数学原理,还会带着大家使用R语言对真实的数据进行分析,并把完整的计算和绘图代码分享给大家!
课程链接:
生物信息学入门课:生信中常用的多元统计分析
2. 课程大纲
线性代数中的一些基础知识复习;
- 矩阵的理解;
- 矩阵乘法的本质;
- 矩阵的行列式的空间解释;
- 矩阵的特征值;
- 相似矩阵
- 矩阵的对角化与谱分解
数据为导向分析思维的养成
- 传统统计学的弊端
- 数学科学的必要性
主成分分析(PCA)
- 主成分分析的通俗理解;
- 使用主成分分析的先决条件;
- 主成分分析的数学实现步骤;
- 使用GTEx RNA-Seq表达谱数据进行PCA分析;
- 直接使用包计算
- 手动计算PCA
- 主成分分析常用分析图表的绘制
聚类分析
- 层次聚类
- K-means聚类
- 聚类问题中的常用距离计算方法
- R语言中聚类分析的实现与图表绘制
tSNE
- 信息熵与KL散度
- tSNE的数学原理
- tSNE的与PCA的比较
- tSNE的应用案例
奇异值分解(SVD)
- SVD的数学原理
- SVD的应用案例
MDS
- MDS的数学原理
- MDS的应用案例
多元回归
- 常用的回归方法
- 多元回归结果的分析与选择
3. 上课笔记节选
4. 课程实战绘图展示
下面若干张图表全部会在上课过程中绘制展示,报名即可获得代码及对应测试数据!
5. 福利部分
福利1:
现在想要购买课程,可以在知乎私信我,我会给大家发优惠券,原价98RMB的课程,使用优惠券以后只要68元!优惠券总共100张,用完即止。
福利2:
购买课程可以加入我们的生物信息学交流QQ群,群内目前已经超过2500人。群内交流积极,热度很高,同时群文件也是一个学习资料的宝库。