样本量对差异性分析(Anova)或者T 检验的影响

样本量大的时候做差异性分析容易得到有显著性差异的结论,原因如下图, 求p值的过程中,n越大,Z0也越大,相对应的p就小了。当然这里默认方差变化不大的情况下,因为一般来说很多数据经过平均后方差不会变化很大,相比平均前后的样本量。

4025027-2cb4826507155392.png
p值计算, from google image

下图中的数据,y1和y2的数据量各为1000,y1m和y2m数据量各为100, 是y1和y2每10个10个数据的平均,所以y1和y1m,y2和y2m的平均值相等,他们的方差也是基本没大变化,我们分别对y1和y2,y1m和y2m做下差异性分析,这里用单因素方差分析(anova1),其实用独立样本t-test会得到相同的结果(计算公式形式虽然不一样,但换汤不换药,结果一样的).
结果是,y1和y2的p值为0.0189,他们之间有显著性差别;y1m和y2m的p值 0.4603,fail to reject原假设(H0: 他们之间没差别),不能说他们之间有显著性差别的。

4025027-13d39845f25f36e3.png
4025027-44398cafe4534978.png
标准差

MATLAB代码

y1 = sin([0.01:0.01:10])*10;
y2= y1+0.7;
p  = anova1([y1;y2]')

y1m = mean(reshape(y1,10,100));
y2m = mean(reshape(y2,10,100));
pm  = anova1([y1m;y2m]')

subplot(2,1,1)
plot(y1,'.')
hold on 
plot(y2, '.')
legend('y1','y2')
subplot(2,1,2)
plot(y1m,'.')
hold on
plot(y2m,'.')
legend('y1m','y2m')

差异显著性检验是在基因表达数据分析中常用的方法之一,用于确定基因在不同条件下是否存在显著差异的统计模型。对于基因表达量FPKM数据的差异显著性检验,可以使用一些常见的统计方法,如t检验、方差分析ANOVA)或非参数检验等。 下面以t检验为例,介绍如何建立差异显著性检验模型: 1. 确定实验条件和样本组: 首先,确定你的实验条件和需要比较的样本组。例如,你可能有一个对照组和一个处理组,或者有多个处理组需要两两比较。 2. 数据预处理: 对于基因表达量FPKM数据,通常需要进行一些预处理,如去除低表达基因、归一化或转换为对数表达值等。 3. 建立假设: 根据实验设计和研究问题,建立统计假设。对于t检验,通常假设两组样本之间的均值相等,即原假设(H0)为两组样本均值无差异,备择假设(H1)为两组样本均值存在差异。 4. 进行统计分析: 使用适当的统计方法,比如独立样本t检验、相关样本t检验或方差分析,对样本组进行比较并计算p值。 5. 判断差异显著性: 根据计算得到的p值,结合预设的显著性水平(通常为0.05),判断差异是否显著。如果p值小于显著性水平,可以拒绝原假设,认为两组样本之间存在显著差异。 需要注意的是,差异显著性检验模型的选择可能会受到数据分布的影响,因此在应用中需要根据具体情况选择合适的方法。此外,还有一些其他的差异显著性检验方法,如DESeq、edgeR等,可以根据实际需求选择适合的方法进行分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值