统计学
文章平均质量分 74
统计学
白墨石
生物信息学在读博士,主要研究生信软件开发及数据库搭建,涉及机器学习,组学流程自动化,序列分析。
联系方式在左栏,欢迎学习交流,咨询提问 ^.^
展开
-
图解统计学 10 | 贝叶斯公式与全概率公式
图文详解贝叶斯公式与全概率公式原创 2023-01-21 14:52:43 · 2469 阅读 · 1 评论 -
归一化与标准化
一、归一化对原始数据缩放到 0-1 之间,是线性变换。也叫最大最小标准化,离散标准化。区间也可以设置为其他,一般为 0 - 1。公式:X=x−minmax−min X = \frac{x-min}{max-min } X=max−minx−minmin 为数据最小值,max 为数据最大值,x 为原始数据值,X 为归一化后的值。x=X′(max−min)+min x = X^{\prime}(max-min)+min x=X′(max−min)+min特点虽然归一化可以保留原始数据中存在的关原创 2021-09-07 21:27:56 · 4500 阅读 · 0 评论 -
Excel 做统计学分析
数据分析插件1、进入 Excel 点击选项2、在加载项中点击转到3、打开分析工具库扩展4、选择数据标签页,点击数据分析5、选择适合数据的分析方法,这里以方差分析为例6、配置分析需要的选项在输入区域输入对应的数据,利用鼠标指针框选带有样本分组标志的数据集,比如下图这样选中标志位于第一行,用于标记分组名称α(A)是显著性水平,0.05代表95%的可信度选中输出区域,将输出结果打印在Excel中,或者可以选新建工具表组7、最后,生成对应的分析结果表里原创 2021-03-19 20:37:05 · 15344 阅读 · 2 评论 -
Markdown 数学公式写法与速查表
文章目录一、公式写法二、基础公式三、关系运算符四、集合运算符五、戴帽符号六、连线符合七、矩阵八、分段函数九、希腊字母一、公式写法公式语法:$$H(X) = -\sum{P(x)logP(x)}H(X)=−∑P(x)logP(x)H(X) = -\sum{P(x)logP(x)}H(X)=−∑P(x)logP(x)带标号的公式语法:$$H(X) = -\sum{P(x)logP(x)} \tag1$$H(X)=−∑P(x)logP(x)(1)H(X) = -\sum{P(x)logP(x)原创 2020-12-12 10:52:40 · 952 阅读 · 0 评论 -
从零开始学统计 11 | 理解置信区间
置信区间假设现在测量了12个小鼠体重的值,注意这里只测量了12只小鼠(样本),而不是地球上的每一只小鼠(总体)取12个测量值,计算平均值,注意这里是样本均值,而不是总体均值(地球上所有小鼠的均值)理解样本均值与总体均值:https://zhenglei.blog.csdn.net/article/details/108392410但是,我们可以通过 Bootstrap 方法,确定一个比较合理的均值范围来代表小鼠总体均值随机选12个小鼠体重值Boostrap 是可放回抽样,意味着抽样时可原创 2020-10-24 12:27:44 · 2848 阅读 · 0 评论 -
从零开始学统计 10 | 通俗易懂的 P 值
文章目录怎么计算P值单尾与双尾的P值抽样分布单一分布中抽样两个独立分布中抽样怎么计算P值抛两次硬币,计算两次都为正(H)的概率计算的P值由三个部分组成:在观察到,在随机事件中发生的概率与之概率相等的事件的概率任何比观察的更罕见的事件发生概率抛 5 次硬币,计算都为正(H)的概率,与P值概率为P值由三部分组成:5个正面5个反面没有比这个事件更小的概率事件所以计算得到可以看到 p 值不小于 0.05(显著性阈值)计算四个正面,一个反面的概率:p 值由三部分组成原创 2020-10-24 12:23:36 · 23451 阅读 · 0 评论 -
从零开始学统计 09 | 对数转换
一、对数转换左边是普通数轴,利用log2函数将左边的数据取它的指数,拿到对数轴同样获取对数轴的负值:二、什么时候用对数转换涉及到倍数变化的时候,就应该使用对数比例尺。在左侧数值虽然是分别大8倍,小8倍的差别,但是在数轴上并不对称。但是经过转换后,这两个倍数差异离中心0是等距的,倍数变化就被明显的展示出来了。这可以使正负倍数的变化出现在一个对称的尺度上。三、总结Log 函数只是去剥离指数对数比例尺对于倍数变化非常有用对数的平均值,也叫几何平均值(Geometric Mean),对原创 2020-09-03 21:06:25 · 6438 阅读 · 0 评论 -
从零开始学统计 08 | 中心极限定理
中心极限定理一、计算平均值的分布1. 均匀分布从0-1选任意值,概率都相等计算一组数据集的平均值,在右边绘制直方图在搜集更多的样本,每增加一次样本,绘制一个直方图增加更多的样本会发现平均值的直方图,正好是我们之前学到的正态分布。需要注意:这些平均值是用均匀分布的数据计算出来的但是,平均值本身不是均匀分布的,而是正态分布的。2. 指数分布计算一组数据的平均值,在右边绘制直方图继续增加样本量,我们就会得到一个熟悉的分布需要注意:这些平均值是用指数分布的数据计算出来的原创 2020-09-03 20:57:12 · 1505 阅读 · 0 评论 -
从零开始学统计 07 | 标准误差
一、标准误差假设测量一个基因的五个表达量:**标准偏差(Standard Deviation)**量化了一组测量值中的变化程度同样的实验做五次,每次实验用不同的样本:把五个样本的平均值放在一个数轴:可以计算得到两个值:对五个样本的平均值取平均值,计算得到的标准偏差就是标准误差。**标准误差(Standard Error)**量化了多组测量值均值的变化程度不难发现:标准偏差量化了一组测量值中的变化程度标准误差量化了多组测量值均值的变化程度二、标准误差的表示三个样本绿色:原创 2020-09-03 20:53:25 · 5682 阅读 · 0 评论 -
从零开始学统计 06 | 样本容量和有效样本容量
一、样本容量研究不同个体的表达量,样本容量(Sample size):N=3研究不同个体的表达量,样本容量(Sample size):N=3技术重复只能告诉我们该测量基因表达的方法准确性,并不会反应个体间的区别。研究一个方法的准确性,样本容量(Sample size):N=4二、有效样本容量假设,蓝色小人是一对双胞胎,他们有着高度相似的基因组,但很明显又是两个不同的个体。那么现在不能简单的用样本容量,需要用到有效样本容量来评价。假设,双胞胎的相关性为0.7,有效样本容量公式:代入数原创 2020-09-03 20:48:02 · 6130 阅读 · 2 评论 -
从零开始学统计 05 | 技术重复和生物学重复
技术重复和生物学重复一、技术重复一个个体,一个样本,测量多次一个个体,三个样本,每个样本测量以上两种情况都是技术重复,特点:技术重复只是对一个人重复相同的实验给出样本的基因表达的精确测量结果,但不能把结果类推到更广泛的人群中可以得到测量基因表达的准确性,比如,每个技术重复测定后的值都很不相同,那么我们就不能相信测得的任何一个样本应用:第一种技术重复,可以检测样本测量方法稳定性等,可以告诉大家新测量方法有多好。第二种技术重复,只告诉我们个体的信息,而不是方法,因为得到的差异有可能来原创 2020-09-03 20:45:21 · 7639 阅读 · 0 评论 -
从零开始学统计 04 | 协方差与相关性分析
一、老板的任务老板今天又给一个任务:计算肝脏细胞中 X 基因与 Y 基因的关系。现在,两个基因在各个细胞中的表达值都有了。绘制不同细胞中 X,Y 基因的表达值在坐标轴上。计算 X 基因和 Y 基因在5个细胞中的均值,标准差。因为这些测量值都是来自同一个细胞,所以我们可以成对来看:那么这样成对的测量可以告诉我们哪些信息呢?现在,先将一对细胞连接,绘制一个点绘制完成,我们发现,X 基因相对较低的细胞对应的 Y 基因的值也较低,两个基因出现步调一致的表达情况,这可以用一条线来表示:不难原创 2020-09-03 20:42:41 · 3556 阅读 · 0 评论 -
从零开始学统计 03 | 均值,方差,标准差
均值现在使用实际的2400亿个细胞计算均值,也就是总体均值(Population Mean)估计均值(Estimated Mean):统计学中,用符号x-bar来表示估计平均值,也叫样本平均值(Sample Mean)使用希腊符号μ来表示总体均值(Population Mean)可以从上图看到,样本均值与总体均值不同,但是随着测量越来越多的数据,x-bar会越来越接近μ。方差、标准差方差和标准差,代表数据是如何在总体均值周围分布的,计算总体方差的公式:x-μ, 代表从每个数据原创 2020-09-03 20:32:25 · 10372 阅读 · 0 评论 -
从零开始学统计 02 | 总体参数
老板的任务一切的噩梦来自于,老板给你的任务:计算所有肝脏细胞中X基因表达量大于30的可能性。现在,假设已经拿到在实际的肝脏中大约 2400 亿个细胞的X基因表达值。使用直方图绘制,可以看到X基因大多表达量是 10 - 30使用直方图求解现在我们计算一个肝细胞的X基因表达量大于30的可能性,需要两个值:X 基因表达量大于30的细胞数总细胞数利用小学除法:根据观察值,代入使用正态分布求解将刚刚的直方图趋势,对应于分布,可以得到均值为20,标准差为10的正态分布曲线现在,换个原创 2020-09-03 20:28:39 · 2328 阅读 · 0 评论 -
从零开始学统计 01 | 神奇的正态分布
正态分布介绍这是在统计学中大名鼎鼎的一种分布,最早由德国的天文学家Moivre提出。后来,德国数学家高斯(Gauss)首先将其应用于天文学研究,故正态分布也叫“高斯分布”。高斯的这项工作对后世的科学研究影响极大,以至于德国10马克的钞票上印的是高斯头像和正态分布。正态分布在这个世界很常见,这会在后面的文章中谈到。举个栗子下图展示了婴儿和成人身高分布曲线。曲线形状的不同代表,成年人的身高差异的可能性比婴儿更多。可以直观的看到:不管曲线长相如何,正态分布总是集中在平均值区域,也就是数值几种在原创 2020-09-03 20:08:11 · 2676 阅读 · 0 评论