卡方的显著性怎么算_学习生物信息学,怎么能不学统计?

7287b88ecf501f048ffab9bcd00ce5e7.png

学习生物信息学,总也绕不过去的便是统计学的学习了。

很多时候,生物信息学数据分析的好坏,很大程度上由一个人的统计思维,或者统计数据分析能力决定。拥有了良好统计思维与统计技能的老铁,往往会成为课题或者项目推动的核心力量。不过有点悲哀的是,无论是大学还是研究生的学习过程中,与生物,生物信息学相关的专业往往会淡化数学尤其是统计的学习与统计思维的培养,给我们以后的工作和深造带来了很多困扰。 就比如,大学阶段最多学一门《概率论和数理统计》再加一门《生物统计》再无其他。

这就给我们数据分析带来了很多问题,主要是《概率论和数理统计》这么课讲得很多时候不那么接地气:一方面是很多重要的思想和统计思维都没有讲清楚,就比如甚至是到了大学本科毕业,研究生入学的时候连Pvalue怎么算都不知道怎么计算;另一方面是很多内容设置得有点“高高在上”,就比如配对t-test,绝对在概统课里涉及,但是很多时候老师只会告诉你配对t-test怎么用,不会告诉你在什么情况下用。

这其实就和统计学本身的创立相违背了。说回统计学本身,她其实是一门偏应用的数学学科,属于数学里相对来说比较容易的部分,很多时候是从生活中不断总结出来的经验与结论。真的把概率论抽提成严谨的数学概念,并形成概率公理都是20世纪30年代的事情了(1933年柯尔莫哥洛夫提出的概率公理化定义),距今也不足百年。而统计学更是很多结论都是在20世纪发现并且完善的,就比如我们分析数据几乎必用的假设检验,也就完善了100年左右。说这么多,其实是想说明,概率论也好,统计学也好都是一门应用学科,学懂了固然重要,但私以为知道怎么用其实更重要。所以想给大家提个醒,在学习统计的时候一定要先告诉自己:统计学是用来用的!

我之前写过一篇关于生物信息学相关的统计学入门路线的文章,原文相对较长,我在这里给大家简单概括。我认为生物信息学相关的统计主要是分成3个部分:

  • 第1部分,是常见的一元统计,包含最基础的概念及常用检验,简单的线性回归,方差分析等等;
  • 第2部分,是多元统计部分,理论推导比较麻烦,在生信里主要是偏应用,大家熟悉的主成分分析(PCA),奇异值分解(SVD),逻辑斯蒂回归等都是属于这个部分的;
  • 第3部分,是一些常用的其他统计技能,比如与统计学习,机器学习相关的支持向量机(SVM),决策树,回归树,常见降维方法,概率图模型(最常见的如隐马模型),以及一些生信里常用软件内包含的统计学等等。

因此我有一个大胆的想法,我想尝试通过3个相对独立的课程,来与大家共同探讨统计学中一些比较常见的概念,更重要的是想分享一些具体的生信问题中用到的统计学,来帮助大家理解一些生物信息学中用到的统计概念。

这次呢,我尝试在某企鹅云课堂平台进行授课,被迫转到企鹅平台是因为我在知乎申请Live被拒绝了。拒绝如下:

fe7c0b84f19fc52e20ba6a2b05171d29.png

ed54c4a2ae30d947bf5ed9f5d6aee29f.png
在知乎申请对应的知乎Live遭到无情拒绝~

也是无奈,不过也是新的机遇。在本次课程中,我会精心准备3次视频直播,为大家介绍数据分析时最常见的统计学概念与问题,并通过实例与R语言的实战操作帮助大家理解与掌握相关的知识,更多的内容,可以收看我为大家录制的课程说明部分。

最后,一定要说明的是,统计学习一定要注重统计思维的培养,养成用统计学去思考问题的方式,不过这种培养不是一朝一夕能够练成的,希望我们在学习的路上相互陪伴。

课程主要目录及内容

统计学基础知识:

  • 什么是概率?
  • 什么是随机变量?
  • 概率密度函数及累积分布函数;
  • boxplot与histogram;
  • 最重要的若干分布(离散+连续);
    • 二项分布;
    • 泊松分布;
    • 负二项分布;
    • 几何分布;
    • 超几何分布;
    • 指数分布;
    • 正态分布;
    • Gamma分布;

统计检验相关:

  • 什么是假设检验?
    • 女士品茶与Pearson拟合优度检验;
    • P value是什么意思?怎么计算?
    • 什么是第1类错误,什么是第2类错误?
    • P value使用常见错误有哪些?
    • 什么是统计检验的功效?
  • t检验专题;
    • 为什么要用t检验?
    • t检验的前提是什么?
    • 如何进行配对t检验?
  • 列联表检验问题
    • Fisher exact test和卡方检验;
    • 从2×2到m×n的推广;

其他内容:

  • 多重检验的矫正问题;
    • 什么是P value什么是Q Value?
  • 方差分析;
  • 简单的回归分析;
    • 什么时候要用Pearson相关系数,什么时候用Spearman相关系数?
    • 什么是决定系数?
    • 回归分析中的P Value到底是怎么回事?
  • 比较重要的非参检验方法;

本次课程地址:

生物信息学入门课:学习生信你需要了解的统计学 第1讲


另外,既然是发在知乎平台,那当然希望大家多多支持我们的生物信息学知乎Live,

每一期都很用心准备!

购买其中任意1次生物信息学知乎Live都可以加入到我们的生物信息学交流群!

注意!入群的时候需要提交1个申请信息,申请信息的内容在每次生信知乎Live的最最下面!

(目前已经有2000+的小伙伴在我们的大群里!)

生物信息学-知乎Live

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值