graphpad两组t检验_数据分析师——旅程篇(假设检验)

c853a3301c4adc3dadab5d396db39ab9.png

假设检验的一般过程:

一、问题是什么

问题:这个犯人是否有罪?零假设和备选假设是互补的

零假设:这个犯人没有罪

备选假设:这个犯人有罪

二、证据是什么

案发视频、人证、不在场证明 p(无罪) = 0.01%:样本证据

三、判断标准是什么

显著性水平:

c84d96f49938e010a84dfe24290053db.png

标准:如果这个人无罪的概率<=5%,那么就是否定无罪

四、得出结论

比较:

552e496e4a337632879416463b1a1e13.png

备选假设成立了:这个犯人有罪。

总结:

80aecd2c5499b429c1965426917f7e9a.png

  • 以汽车引擎排放为案例练习单样本检验

新排放标准:平均值<20ppm

10台引擎排放水平:15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9

描述统计分析:

6ccb72bcc21f83235dd4a253d818c1d2.png

问题:公司引擎排放是否满足新标准?

零假设:公司引擎排放不满足标准,也就是平均值>=20

备选假设:公司引擎排放满足标准,也就是平均值<20

假设检验的类型:

69a2c6bf5e8ad8578d2c2619827dc3a9.png

这个案例属于单样本检验。

抽样分布类型:

ae7f3cf77668529bec59539e5475217d.png

这个案例样本大小是10,属于小样本抽样分布,那是不是t分布呢?总体是不是近似分布呢?所以我们用某种技术手段看看样本数据集的分布长什么样子。

可以使用python 的seaborn包来看数据集的直方图和拟合曲线:

b77eb1ec5f91891e0220b300f3203e14.png

所以案例属于t分布,自由度 = 样本大小 - 1 = 9

补充知识点:柱状图和直方图的差别

每个类别的数据用柱状图;查看数据集的分布情况用直方图:

eecdbb85e6d6616e188758fdc60ea29b.png

单尾检验还是双尾检验:

单尾检验:检验的判断标准是落在抽样分布的左侧还是右侧,这个要看备选假设。如果备选假设包含小于号,那么就是左尾检验,判断标准对应在抽样分布的左边。如果备选假设包含大于符号,那么就是右尾,判断标准对应在抽样分布的右侧的黄色区域。

7331cee07c72a9df345499fff8f99847.png

双尾检验:就是判断标准一分为二,分布在抽样分布的两侧。如果备选假设包含一个不等于号,那么就是双尾检验。

7401a5be0bc81d6cd9cbcdb89d1d07b1.png

所以案例属于单尾检验的左尾检查。

所以在问题是什么里面的一般步骤是:

  • 零假设和备选假设
  • 检验类型
  • 抽样分布
  • 检验方向

ae1c0a7c314a9fac3e6222ec79c2d04f.png

所以本次案例假设检验——单样本t检验,单尾检验种的左尾。

补充知识点:统计学中p值是什么?

p值是在假定零假设成立前提下,得到样本平均值的概率是多少?

如何计算p值:

1)样本标准差s:估计总体标准差

标准误差

2)

3)根据t值,查找t表格,得到p值

方式一:手动计算

898fb840b799fc28aa4cf8e724aa4189.png

用这个网址:https://www.graphpad.com/quickcalcs

76952ad0984e4a63e61d19f3aa15247b.png

这个是双尾检验的p值,根据双尾检验值和单尾检验p值的关系:

e277d694913ae060e7ff41380028e373.png

所以 p = 0.015/2

方式二:python包

9505389a86c6498ad1f3eb9f4fde6d35.png

这个p值的含义是:在零假设前提下,得到样本平均值的概率,假设汽车引起满足不排放标准20,得到样本平均值的概率是0.0074。

判断标准是:显著水平alpha = 5%,我们是左尾检验

b0f07f03c4b409a1da4b454fda3605df.png

做出结论:

b933d186ff090450e45bc8b66d3424b8.png

c40a668cfcbbd147b5447aaa3a6c859c.png

46310d7fbe3bc762e130e4879cf2745c.png

统计显著说明两个不同版本之间有差异,但是不同于效果显著,这个差异多大,看另一个指标。

对于假设检验报告的格式:用APA格式

d463f19e15b2be8535f8af59fd00ea64.png

该案例:检验类型,t值(自由度)(保留两位小数)

单样本t(9)=-3.00, p=.0074(a=5%),单尾检验(左尾)

推论统计总我们往往还要给出置信区间,这里面t值是不一样的:

db3cabe44bc642532c0a4926c03308f5.png

8b1fdd028fcf6aa25d57ef831248b52e.png

所以单个平均值的置信区间

95%置信水平 CI = [17.11,17.23]

对于置信区间报告的格式:用APA格式

511d31b752f2f6a7e1cab96e8c7459d2.png

效应量:指出差异的大小,效果显著程度

dcd37582ec0beea26e8b176754d12f3e.png

该案例中:

单样本检验cohens'd =(样本平均值-总体平均值)/ 样本标准差

e59f99b6207312ac3dec7f0c3144e7b3.png

效应量报告格式 d = -0.95

48511bddeea07cc0abfa3bdb5be00437.png

总结:推论统计分析报告的一般思路

c92576af169d08581fd3f6df955d48c0.png

该案例推论统计分析报告:

1f3ee1eb3f56ef01775d52a5b4e18317.png

  • 以心理学现象(特鲁普效应)为案例练习相关配对检验

bfe730d080fc04ff7104be7dfc2aec3d.png

实验内容:将第一组字体颜色读出来,记录全部读完的时间,第二组同样,注意:这边是读字体颜色,而不是字的内容。随机抽取24个人进行实验,每个人有以上2组文字,记录每名实验者分别读出两组文字颜色的时间,汇总到下面表格。

07c6bb21e88bbb5b61bdccefecee7ede.png

1)描述统计分析

583fe808e0cfc6363e9630cfa1d097c1.png

1a23f30ff80d7908e8db6e3b041d5e9d.png

3db96fa73883dde4fc44b2b15d62ec01.png

2)推论统计分析——假设检验

2.1问题是什么?

验证心理学现象:特鲁普效应是否存在?

  • 零假设和备选假设

零假设:特鲁普效应不存在,第一组平均值 = 第二组平均值 或者 第一组平均值-第二组平均值 = 0

备选假设:特鲁普效应存在,第一组平均值 < 第二组平均值

  • 检验类型

6a5b43a903914d792fde8ed8e3192c0d.png

这是相关配对检验:有两组相关数据,那么我们就可以用差值来转化为单样本检验

8895957dc43d2133d96fe29caaf20e9c.png
  • 抽样分布

这里面有24个样本大小,所以是小样本抽样,通过可视化来体现差值数据集的分布,可以发现近似正态分布,所以抽样分布是t分布。

aa1fca2ada046d1cb589231106e7ad47.png
  • 检验方向

通过备选假设,第一组反应平均时间<第二组反应平均时间,备选假设包含小于号,所以是单尾检验中的左尾。

所以本次假设检验是相关配对t检验 单尾检验中的左尾

2.2证据是什么?

计算p的值:

266b5e8ca76087f249dc436f2d61988b.png

也就是说,在没有特鲁普效应存在的假设前提成立下,样本平均值出现的概率是1.8e-08。

2.3判断标准是什么?

我们给定常用的显著水平是5%:

7092c1046606d8fcd6351529c0323366.png

2.4做出结论?

d03c603acff9d14942bc0f51755644b4.png

假设检验报告:

相关配对检验t(23) = -8.09,p=1.8e-08(a=5%),单尾检验(左尾)

存在统计显著,拒绝零假设,从而验证特鲁普效应存在。

3)置信区间

bdd719f5d8a0f1340eb9e24667d7b2d0.png

这里样本平均值是指差值数据的平均值:

9cdc232f6810a27ad656eebcd7c7c351.png

置信区间报告:

两个平均值差值的置信区间95%置信水平 CI = [-8.49,-8.36]

4)效应量

4b053971dbad815c4ec0cb4515192e0d.png

8f7496c8fbfddaf4e862d29e71a909f9.png

86ce9053b7c4fa8fef282c60e86ddbac.png

效应量报告:

d = -1.65 效果很显著。

  • 总结分析报告:

1.描述统计分析:

第一组样本数据:字体内容和颜色一致,平均反应时间是13.927秒,标准差是3.54秒
第二组样本数据:字体内容和颜色不一致,平均反应时间是22.351秒,标准差是5.01秒

“不一致”情况所用的时间均大于“一致”情况,也就是当字体内容和字体颜色不一致时,实验者的平均反应时间变长

2.推论统计分析:

1)假设检验

相关配对检验t(23)=- 8.09,p=1.8e-08(a=5%),单尾检验(左尾)

存在统计显著,拒绝零假设,从而验证特鲁普效应存在。

2)置信区间

两个平均值差值的置信区间,95%置信水平 CI = [-8.49,-8.36]

3)效应量

d = -1.65, 效果很显著。


  • 以A/B测试为案例练习独立双样本检验

作为产品经理,你想要知道哪个键盘布局对于用户体验更好呢?

a0290679d798630aa27f2f2cb88a60d7.png

如果键盘对于用户拼错字的影响较小,那么这个键盘是符合用户习惯的,因此,我们把目标定位为用户打字时拼错字的影响,将两组用户随机分配到不同的版本,每组实验者25人,A组使用版本A,B组使用键盘版本B,让他们在30秒内打出标准20个单词/文字/消息,记录这些字里面错别字的数量。记录在下面的文件中。

4f6cc1601801f579898431bb50ef7dfb.png

1.描述统计分析

0cd6b04e14f76421bdab74f3d2572671.png

d2a1a418d8ff65ace6a30143de9fc657.png

14f642ef641f1b520002c244c7bbe42d.png

2.推论统计分析

2.1假设检验

1)问题是什么?

问题:哪个键盘布局对于用户体验更好呢?

零假设:A版本和B版本没有差别,也就是A版本平均值 = B版本平均值

备选假设:A版本和B版本有差别,也就是A版本平均值 != B版本平均值

检验类型:独立双样本检验

抽样分布:小样本抽样分布的t分布

9e9e78990c44ad731521d80e194b5f27.png

2a807dd041a467a3c4d716f4821dfadc.png

检验方向:双尾检验

d061d164efc5624e8b74f139bfea0a6e.png

2)证据是什么?

04c36ea4b2a2f83adf6cea22347ca5c8.png

t = -4.06,p_two=0.00019,df = 45

3)判断标准?

alpha = 5%

35146d5fd1a6785d0e42c6e425da3631.png

a2a943587c1988328588e6b1a3708c03.png

4)得出结论?

fb590c74098249f08fb72d0920ca059f.png

43b93624b5f2ec0bf13a29b3af12aa7b.png

假设检验报告:

独立双样本t(45) = -4.05,p = .00019(5%),双尾检验

拒绝零假设,存在统计显著,从而验证A版本与B版本存在显著差异。

2.2置信区间

b7dc80c31b642f2146e310c7c361d6bf.png

edae625e579fa8c1cfbf80970aec4925.png

529841513a7bc82ada72e4f57755eb0a.png

置信区间报告:两个平均值差值的置信区间,95%置信水平 CI = (-2.75,-2.69),A版本用户体验更好,平均少打错字2-3个字。

2.3效应量

c5d67d0ed0ecb92701cbfd293ee812ef.png

1886b2698c0e0d2e159a5971eabb0930.png

效应量报告:d = -1.14 ,效果显著大

总结:

1.描述统计分析

A版本:
平均打错字个数为5.08个,标准差为2.06个
B版本:
平均打错字个数为7.80个,标准差为2.65个

2.推论统计分析

1)假设检验

独立双样本t(45) = -4.05,p = .00019(5%),双尾检验

拒绝零假设,存在统计显著,从而验证A版本与B版本存在显著差异。

2)置信区间

两个平均值差值的置信区间,95%置信水平 CI = (-2.75,-2.69)

A版本用户体验更好,平均少打错字2-3个字。

3)效应量

d = -1.14 ,效果显著

作为产品经理,发布A版本对于用户体验来说更好。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值