我们检验生物实验的概率时,一般是总体方差已知,或者方差未知但n》30,用样本方差估计总体方差,用正态分布足够了。但是我们会遇到总体方差未知,n<30的情况,此时就不呈现正态分不了,而是服从t分布;不过我认为在生物信息分析领域或者大数据里面这种情况很少,但有些实验确实少比如样本稀有。。。
卡方分布为n个样本的平方和,F分布为两个独立样本的方差比值,但这两个分布的实际用法还没有想明白。。。
假设检验的意义是为了区分差异是由抽样的随机误差造成的,还是由实验条件不同造成的;如果抽样结果使小概率事件发生,则拒绝假设;显著水平为小概率事件的界限,一般为0.05和0.01;双尾检验比单尾检验更难否定,所以采用单尾检验时要有足够的依据,我认为要多抽样增加总量。
假阳性与假阴性,一个增加另一个就减少,比如将显著水平从0.05提高到0.01,则减少了假阳性的概率相应地提高了假阴性的概率。
样本平均数检验,大样本用正态分布u检验,小样本用t检验。
样本频率检验,np|<5使用二项分布检验,np|nq>5使用正态分布u检验,但要进行连续性校正;np|nq>30,不需要进行连续性校正。
在对样本平均数、频率检验的前提条件是方差的同质性(基本相等),评估各个样本的方差来推断总体方差是否相同,一个样本使用卡方分布进行检验,两个样本使用F分布进行检验,多个样本的同质性检验采用巴特勒检验法(彻底看不明白了)。