统计
文章平均质量分 56
JasonKQLin
我欲仁,斯仁至矣!
展开
-
R 设置错误信息的长度
最近运行代码报错,查看错误信息时发现错误信息只显示了一半,原因是错误信息太长了,默认的设置显示不完(默认设置有点傻),搜索了半天在解决了,解决方法是用下面的命令去设置输出错误信息的长度:options(warning.length = 5000)原创 2023-10-24 21:18:04 · 132 阅读 · 0 评论 -
PCA和LDA
PCA is an unsupervised method that tries to find the directions of maximum variance in the data. It projects the data onto a new set of orthogonal axes, called principal components, that capture as much of the variability as possible. The first principal c原创 2023-09-05 15:46:16 · 277 阅读 · 0 评论 -
MDS,PCoA和PCA
Non-metric的MDS就叫做Principal Coordinates Analysis(PCoA),它跟PCA的区别在于用距离矩阵代替了PCA中的观察值。MDS分为两种类型:1,metric MDS,它使用距离矩阵进行计算;2,Non-metric MDS,用距离的排序构造矩阵。MDS: A distance matrix.(这里的距离包含各种各样的距离,或者距离的rank)原创 2023-09-05 11:42:19 · 344 阅读 · 0 评论 -
平均值和方差的点估计、区间估计
0,预备知识0.1,中心极限定理0.2,均值的标准误差0.3,卡方分布1,总体均值的无偏估计量2.1,当总体方差已知时对样本均值的描述(Z统计量)2.2,当总体方差未知时对样本均值的描述(t统计量)3.1,当总体方差已知,或者大样本量(n>200,总体方差未知)时,总体均值的区间估计。(在实际操作过程中会对样本进行抽样,每次取n个数出来,算平均值,这些平均值的期望就是对总体方差的无偏估计)3.2,当总体方差未知,总体均值的区间估计。4.1,总体方差的点估计(对任何分布原创 2023-08-29 09:59:30 · 983 阅读 · 2 评论 -
为什么样本方差(sample variance)的分母是 n-1?
https://www.zhihu.com/question/20099757原创 2023-08-28 20:24:26 · 82 阅读 · 0 评论 -
RR、OR和HR区别
1,在医学统计学中,有三个关于比值的概念,分别为相对危险度(relative risk,RR,也称 risk ratio)、风险比(hazard ratio,HR)和优势比(odds ratio,OR)。很多同行一看见这三个概念就容易混绕。在此,笔者拟谈谈如何正确理解这三个概念的区别和联系。我们以病因学研究为例,先谈谈 OR 与 RR 的区别,因为这两个指标均可以从四格表中衍生出来。我们先来看看两个关于吸烟与肺癌的例子:RR(Relative Risk) - 相对危险度RR(Relative Risk转载 2023-08-20 15:52:24 · 195 阅读 · 0 评论 -
拟牛顿法quasi-Newton method
拟牛顿法Quasi-Newton methods是一种以牛顿法为基础设计的,求解非线性方程组或连续的最优化问题函数的零点或极大、极小值的算法。当牛顿法中所要求计算的雅可比矩阵或Hessian矩阵难以甚至无法计算时,拟牛顿法便可派上用场。原创 2023-08-08 16:04:32 · 76 阅读 · 0 评论 -
beta distribution (beta分布)
https://homepage.divms.uiowa.edu/~mbognar/applets/beta.html原创 2023-07-01 23:47:47 · 287 阅读 · 0 评论 -
GSEA p-value和FDR计算方法
Estimating Significance. We assess the significance of an observed ES by comparing it with the set of scores ESNULL computed with randomly assigned phenotypes.Multiple Hypothesis Testing.Create a histogram of all NES(S, π) over all S and π. Use this null d原创 2023-06-29 15:56:07 · 579 阅读 · 0 评论 -
chi-square, McNemar‘ exact, Mantel-Haenszel, Kappa, Fisher exact test区别
1,chi-square test2, McNemar’ exact test3,Mantel-Haenszel test4,Kappa test5,Fisher exact test原创 2023-04-03 19:06:00 · 1374 阅读 · 0 评论 -
R和R squared用法总结
1,RRRThe correlation coefficient, usually denoted by the symbol r, is a measure of the linear relationship between two variables, such as x and y. r is also called the product moment correlation coefficient, or Pearson’s correlation coefficient.2,R2R^2R2原创 2021-06-22 15:50:46 · 1305 阅读 · 0 评论 -
pROC中两条曲线p-value计算
1,使用bootstrap法Note:抽取用来绘制ROC曲线的80%的数据,计算pAUC,重复抽取2000次,这样就可以用来计算标准差了,进而计算p-value。原创 2019-12-06 17:17:27 · 829 阅读 · 0 评论 -
统计type 1 error, type 2 error and ROC曲线
1,type 1 error对应假阳性率,type 2 error对应假阴性率。Reality如果零假设正确,那么现在根据Research零假设进行推断; Research如果观察值落在红色区域左边,那么就会接受零假设,与Reality相符,正确的概率为1-α;反之, Research如果观察值落在红色区域内,那么就会拒绝零假设,这时候的拒绝是错误的,这个错误就是type I error。Re...原创 2019-09-24 10:56:11 · 12058 阅读 · 0 评论 -
P-value是啥
1,P-value 是在零假设(null hypothesis)成立的情况下,观察值或比观察值更极端的值发生的概率。原创 2019-09-24 10:51:55 · 7470 阅读 · 0 评论 -
以T test说明统计检验过程
1,统计检验原理小概率事件在一次试验中几乎不可能发生。2,统计检验过程1,建立零假设(null hypothesis, 又叫空假设,H0)和备择假设(alternate hypothesis,H1);一般零假设是我们不想看到的,是拿来拒绝的。2,选择合适的统计检验方法;T-test在生物中用的最多。3,选择显著性水平;一般是0.05。4,选择拒绝零假设的区域;一般选双尾(选单尾...原创 2019-09-24 10:50:26 · 2271 阅读 · 0 评论 -
T-test with sample standard deviation of zero
用T-test去检验两组样本的平均值是否有显著差异时,如果两组样本的方差都为0咋办?1,首先要明白T-test能干啥,它用来检验两组样本平均值是否有显著性差异。其实就是判断平均值之间的差异是否比随机误差带来的差异大很多,而方差就是来衡量随机误差的。如果两组的平均值之差很大,各自的方差很小,那么平均值差异就倾向于显著;反之,就不显著。2,T-test不能干啥?无法帮助判断有显著性差异的结果是否有...原创 2019-07-17 10:50:33 · 594 阅读 · 0 评论 -
数据聚类建模之k-means
1,数据聚类建模与数据预测建模的区别是它不区分输出变量和输入变量,希望将观测值分成两个及以上的自然小类。K-means,顾名思义,根据“平均值”将数据聚成K类。...原创 2019-03-13 17:23:45 · 525 阅读 · 0 评论 -
R的stats包中fisher.test()计算过程详解
最近用R包中自带的fisher’s exact test做统计检验时,发现结果跟用超几何分布手动算出来(就是把每一种可能都穷尽的,再根据超几何分布来算p-value)的不一样,那么问题在哪呢?问题就在R包中自带的fisher’s exact test的零假设跟我们常规的不一样,它的零假设和备择假设分别为:H0: true odds ratio is equal to 1;H1: true o...原创 2019-03-05 19:15:29 · 24865 阅读 · 1 评论 -
ROC曲线
ROC曲线,即receiver operating characteristic curve, 接收器操作特性曲线。横坐标为1-specificity,纵坐标为sensitivity。拿患病来说,sensitivity就是本来有病,我们检测出来也是有病;specificity就是本来没病,我们检测出来也是没病。Sensitivity对应着真阳性,specificity对应着真阴性。那么ROC曲线的...原创 2018-10-11 18:47:42 · 1157 阅读 · 0 评论 -
概率与贝叶斯公式
1.1 概率的定义一个事件的概率就是这个事件在整个无限增大试验次数中的相对频率。1.2 概率的公理化定义设随机事件的样本空间为Ω,Ω的一个子集叫事件,对于Ω中的每一个事件A,都有实函数Pr(A),满足:非负性: Pr(A) ≥ 0 (Pr(A) ≤ 1)规范性: Pr(Ω) = 1可数可加性:对于可数个两两互斥事件AiA_{i}Ai,∑i=1∞Pr(Ai)=Pr(⋃i=1∞Ai)\...原创 2018-10-11 19:40:40 · 509 阅读 · 0 评论 -
excel常用函数
描述性统计量相关#平均值=average()#最大值=max()#最小值=min()#中位值=median()假设检验相关#F检验(目的是检验两组数A, B的方差是否有显著性差异)=f.test(A, B)#T检验(目的是检验两组数A, B的平均值是否有显著性差异)=t.test(A, B, tails, type)tails可选1或者2,1代表单尾,2代表双尾,大部分...原创 2018-10-14 11:04:17 · 203 阅读 · 0 评论 -
SD SEM 区别
SD全称为standard deviation,即标准差;SEM全称为standard error of mean,即均值的标准差(SEM也称为SE)。SD属于描述性统计学范畴,用来描述一组数据的离散程度;SEM属于推断统计学范畴,用来描述随机抽样过程中,样本均值与总体均值的离散程度。以生物学实验为例,如果要比较两组样本的均值大小,画error bar用SEM;如果要衡量一组样本不同重复之间...原创 2018-10-24 16:03:40 · 13710 阅读 · 0 评论 -
二项分布与泊松分布
二项分布(Binomial distribution)要介绍二项分布,先要介绍伯努利实验,然后自然而然就想到了抛硬币问题,正面朝上的概率为p,反面朝上的概率为q (q = 1 - p),假设正面朝上标记为1,反面朝上为0,则一次伯努利实验的期望为p,方差为p*q。二项分布是对n次伯努利实验正面朝上(或反面朝上)次数及其概率进行刻画的一种离散分布。官方一点表述是n次独立伯努利试验成功次数的离散...原创 2018-10-24 20:22:10 · 10081 阅读 · 2 评论 -
跟二项分布相关的统计检验方法
假设检验原理小概率事件在一次试验中几乎不可能发生。多重假设检验原理小概率事件在多次重复试验中必定会发生。单样本二项式检验(binomial test)问题:调查北京市所有人喜欢吃面食还是吃米饭(都不喜欢吃的忽略),在北京街头随机选了10个人(样本有点少),有8个喜欢吃面食,2个喜欢吃米饭。由此能否否定北京人喜欢吃面食的比例为p = 0.5呢?建立零假设(null hypothesis)...原创 2018-11-04 12:09:49 · 13401 阅读 · 0 评论 -
统计检验 单尾还是双尾
The selection of a one or two-tailed t-test must be made before the experiment is performed. It is not “cricket” to find a that tOBS = -1.92, and then say “I really meant to do a one-tailed t-test.” B...原创 2018-11-04 12:26:17 · 7950 阅读 · 0 评论 -
统计数据分类
1,基数数据(cardinal data)这是一类有尺度的数据,数值一般有确定的生物学或物理学等含义。如温度的高低能对应到天气的冷热,体重的大小能对应到一个人的胖瘦。可以分为区间尺度(interval scale)数据和比例尺度(ratio scale)数据。区间尺度数据没有固定的零点,如华氏温度和摄氏温度零点的意义就不同,对于这类数据,一般会取一个区间去描述现象,而它们的比值通常没啥意义,...原创 2018-11-10 10:41:42 · 2093 阅读 · 0 评论 -
OR值
OR值的全称是odds ratio、比值比,对于发病率很低的疾病来说,它是OR值即是相对危险度的精确估计值。OR值的意义:OR值等于1,表示该因素对疾病的发生不起作用;OR值大于1,表示该因素是危险因素;OR值小于1,表示该因素是保护因素。计算公式如下:假定我们要鉴别因素(例如吸烟)是不是某个疾病的危险因素(例如肺癌)。形成如下四个表:吸烟不吸烟肺癌AB正...原创 2018-11-14 15:37:49 · 16937 阅读 · 0 评论 -
生物统计学教材中的统计推断方法
生物统计学基础(Fundamentals of Biostatistics,伯纳德-罗斯纳著,孙尚拱译)给出统计推断的基本方法,如下:原创 2018-11-16 22:17:04 · 1369 阅读 · 0 评论 -
one-way ANOVA(analysis of variance) 单向方差分析
问题描述:在比较两组独立正态分布样本的均值时用t test,那么比较多组样本的均值呢?要用one-way ANOVA。原创 2018-11-19 14:36:20 · 28001 阅读 · 0 评论 -
单因素方差分析(ANOVA)的多重比较校正
post hoc test如果ANOVA结果显示至少有两组的均值不相等,那么接下来要确定是哪两组或哪些组的均值不相等,对差异的这个结果进行后续检验就叫做post hoc test,又叫做multiple comparison anlaysis test。比较两组样本之间的差异1,the tukey method优点是对所有组进行两两比较,计算简单,能减少type 1error的概率,各组样...原创 2018-12-30 20:06:48 · 18464 阅读 · 0 评论 -
超几何分布检验(hypergeometric test)
1,超几何分布的定义总共有N件产品,其中M件次品,现在从中抽取n件做检查,抽到k件次品的概率分布服从超几何分布。P(k,N,M,n)=((Mk))∗((N−Mn−k))(Nn),其中k=0,1,2,...MP(k, N, M, n) = \frac{\left(M \choose k \right)*\left(N-M \choose n-k \right)}{N \choose n},其中k...原创 2019-01-15 14:04:35 · 25547 阅读 · 7 评论 -
卡方检验还是费歇尔精确检验?
1,卡方检验(chi-square test)和费歇尔精确检验(fisher’s exact test)都可以对2X2的表格进行检验,如何进行选择?假设有如下的2X2表格(CVD为心血管病):a, b, c, d分别为四种情况对应的样本数,根据上表,四种情况对应的理论频数分别为:如果理论频数有一个小于5,则应该用fisher’s exact test,否则,要用chi-square te...原创 2019-03-05 14:57:25 · 14621 阅读 · 0 评论 -
超几何分布检验(hypergeometric test)与费歇尔精确检验(fisher‘s exact test)
1,超几何分布检验常用来对venn图两个圈overlap的显著性进行检验,费歇尔精确检验常用来对2x2的列联表进行检验。2,假设有如下的统计数据:smokenon-smokelung cancer106normal112现在对其进行费歇尔精确检验,有两种提零假设的方法:2.1 对比抽烟组和非抽烟组H0:抽烟组得肺癌的概率p1和非抽烟组得肺癌的概率p...原创 2019-03-05 16:54:17 · 16201 阅读 · 1 评论 -
描述性统计量
在R语言和excel中实现描述性统计量1.1 算术平均(arithmetic mean)Excel:=average()R: mean()Note: 注意区分平均数和期望,算术平均是根据有限样本计算而来(一般认为每个样本权重相同,也可以计算加权平均);期望是理论情况,由样本值乘以对应的概率加和而来;样本无限大时,平均数趋近于期望。1.2 几何平均(geometric mean)Exce...原创 2018-10-11 18:34:22 · 4194 阅读 · 0 评论