![c853a3301c4adc3dadab5d396db39ab9.png](https://i-blog.csdnimg.cn/blog_migrate/06aedc990753ede3e1e3c1b565a9588a.jpeg)
假设检验的一般过程:
一、问题是什么
问题:这个犯人是否有罪?零假设和备选假设是互补的
零假设:这个犯人没有罪
备选假设:这个犯人有罪
二、证据是什么
案发视频、人证、不在场证明 p(无罪) = 0.01%:样本证据
三、判断标准是什么
显著性水平:
![c84d96f49938e010a84dfe24290053db.png](https://i-blog.csdnimg.cn/blog_migrate/4bad41f2c6decdc9e209cca41a71d020.png)
标准:如果这个人无罪的概率<=5%,那么就是否定无罪
四、得出结论
比较:
![552e496e4a337632879416463b1a1e13.png](https://i-blog.csdnimg.cn/blog_migrate/86cdce2aee1705b1e3c505c92d3cc1e0.jpeg)
备选假设成立了:这个犯人有罪。
总结:
![80aecd2c5499b429c1965426917f7e9a.png](https://i-blog.csdnimg.cn/blog_migrate/d14bec1f0fbfc7ae04b3db0053313ca5.jpeg)
- 以汽车引擎排放为案例练习单样本检验
新排放标准:平均值<20ppm
10台引擎排放水平:15.6,16.2,22.5,20.5,16.4,19.4,16.6,17.9,12.7,13.9
描述统计分析:
![6ccb72bcc21f83235dd4a253d818c1d2.png](https://i-blog.csdnimg.cn/blog_migrate/3d052cbae39d89277d02a97425cee9c0.jpeg)
问题:公司引擎排放是否满足新标准?
零假设:公司引擎排放不满足标准,也就是平均值>=20
备选假设:公司引擎排放满足标准,也就是平均值<20
假设检验的类型:
![69a2c6bf5e8ad8578d2c2619827dc3a9.png](https://i-blog.csdnimg.cn/blog_migrate/e94917011a14644a8d469ae648da748f.jpeg)
这个案例属于单样本检验。
抽样分布类型:
![ae7f3cf77668529bec59539e5475217d.png](https://i-blog.csdnimg.cn/blog_migrate/e9a86b556d66cccfb7839527482dbc8d.jpeg)
这个案例样本大小是10,属于小样本抽样分布,那是不是t分布呢?总体是不是近似分布呢?所以我们用某种技术手段看看样本数据集的分布长什么样子。
可以使用python 的seaborn包来看数据集的直方图和拟合曲线:
![b77eb1ec5f91891e0220b300f3203e14.png](https://i-blog.csdnimg.cn/blog_migrate/77e7ee475db51c9a3041df6c4a0ee38d.jpeg)
所以案例属于t分布,自由度 = 样本大小 - 1 = 9
补充知识点:柱状图和直方图的差别
每个类别的数据用柱状图;查看数据集的分布情况用直方图:
![eecdbb85e6d6616e188758fdc60ea29b.png](https://i-blog.csdnimg.cn/blog_migrate/03d4dc56e4d5505c6b0c7c4064c2f933.jpeg)
单尾检验还是双尾检验:
单尾检验:检验的判断标准是落在抽样分布的左侧还是右侧,这个要看备选假设。如果备选假设包含小于号,那么就是左尾检验,判断标准对应在抽样分布的左边。如果备选假设包含大于符号,那么就是右尾,判断标准对应在抽样分布的右侧的黄色区域。
![7331cee07c72a9df345499fff8f99847.png](https://i-blog.csdnimg.cn/blog_migrate/492177a98fcb6db7d5a7a40157ab42b2.jpeg)
双尾检验:就是判断标准一分为二,分布在抽样分布的两侧。如果备选假设包含一个不等于号,那么就是双尾检验。
![7401a5be0bc81d6cd9cbcdb89d1d07b1.png](https://i-blog.csdnimg.cn/blog_migrate/7f10653346d4997bc444c48dac2a37a4.jpeg)
所以案例属于单尾检验的左尾检查。
所以在问题是什么里面的一般步骤是:
- 零假设和备选假设
- 检验类型
- 抽样分布
- 检验方向
![ae1c0a7c314a9fac3e6222ec79c2d04f.png](https://i-blog.csdnimg.cn/blog_migrate/955baf24d897c1f7ef0ade0cae3559cd.jpeg)
所以本次案例假设检验——单样本t检验,单尾检验种的左尾。
补充知识点:统计学中p值是什么?
p值是在假定零假设成立前提下,得到样本平均值的概率是多少?
如何计算p值:
1)样本标准差s:估计总体标准差
标准误差
2)
3)根据t值,查找t表格,得到p值
方式一:手动计算
![898fb840b799fc28aa4cf8e724aa4189.png](https://i-blog.csdnimg.cn/blog_migrate/12233b6681371ab8fe0ef2e232583dae.png)
用这个网址:https://www.graphpad.com/quickcalcs
![76952ad0984e4a63e61d19f3aa15247b.png](https://i-blog.csdnimg.cn/blog_migrate/39962166f23eb56672647071669f526c.jpeg)
这个是双尾检验的p值,根据双尾检验值和单尾检验p值的关系:
![e277d694913ae060e7ff41380028e373.png](https://i-blog.csdnimg.cn/blog_migrate/89d383dc34197fbc1669281f22618c2d.png)
所以 p = 0.015/2
方式二:python包
![9505389a86c6498ad1f3eb9f4fde6d35.png](https://i-blog.csdnimg.cn/blog_migrate/4068693dc0f96ccbbc4d6b44ee471f56.jpeg)
这个p值的含义是:在零假设前提下,得到样本平均值的概率,假设汽车引起满足不排放标准20,得到样本平均值的概率是0.0074。
判断标准是:显著水平alpha = 5%,我们是左尾检验
![b0f07f03c4b409a1da4b454fda3605df.png](https://i-blog.csdnimg.cn/blog_migrate/ad559e1430d30407d8b0d2bf0c5bc227.png)
做出结论:
![b933d186ff090450e45bc8b66d3424b8.png](https://i-blog.csdnimg.cn/blog_migrate/5debf25e73672294f4c0ff089ac3eeab.jpeg)
![c40a668cfcbbd147b5447aaa3a6c859c.png](https://i-blog.csdnimg.cn/blog_migrate/9e7923f645c9e6d0fa98755860f336de.jpeg)
![46310d7fbe3bc762e130e4879cf2745c.png](https://i-blog.csdnimg.cn/blog_migrate/05bbade58ad48f7411319640c890065b.jpeg)
统计显著说明两个不同版本之间有差异,但是不同于效果显著,这个差异多大,看另一个指标。
对于假设检验报告的格式:用APA格式
![d463f19e15b2be8535f8af59fd00ea64.png](https://i-blog.csdnimg.cn/blog_migrate/55f1001f20d05fc6f45b9d558ae0f7c9.png)
该案例:检验类型,t值(自由度)(保留两位小数)
单样本t(9)=-3.00, p=.0074(a=5%),单尾检验(左尾)
推论统计总我们往往还要给出置信区间,这里面t值是不一样的:
![db3cabe44bc642532c0a4926c03308f5.png](https://i-blog.csdnimg.cn/blog_migrate/95b96b2ddb5fad29b64c6248b0a61138.jpeg)
![8b1fdd028fcf6aa25d57ef831248b52e.png](https://i-blog.csdnimg.cn/blog_migrate/f9073bc9561acf95d40fb4f62bffa56f.png)
所以单个平均值的置信区间
95%置信水平 CI = [17.11,17.23]
对于置信区间报告的格式:用APA格式
![511d31b752f2f6a7e1cab96e8c7459d2.png](https://i-blog.csdnimg.cn/blog_migrate/c79f1ab02a971e68607b1d5b5fa591a7.png)
效应量:指出差异的大小,效果显著程度
![dcd37582ec0beea26e8b176754d12f3e.png](https://i-blog.csdnimg.cn/blog_migrate/ade8ed128c750c09ef3289c89941a120.jpeg)
该案例中:
单样本检验cohens'd =(样本平均值-总体平均值)/ 样本标准差
![e59f99b6207312ac3dec7f0c3144e7b3.png](https://i-blog.csdnimg.cn/blog_migrate/e3e91e53d5b593f3357d9e855ee8a55a.png)
效应量报告格式 d = -0.95
![48511bddeea07cc0abfa3bdb5be00437.png](https://i-blog.csdnimg.cn/blog_migrate/77f3c64a5fa305728b97e6120eebe008.jpeg)
总结:推论统计分析报告的一般思路
![c92576af169d08581fd3f6df955d48c0.png](https://i-blog.csdnimg.cn/blog_migrate/2876c2baef0db4d2413dc12bca1d254d.jpeg)
该案例推论统计分析报告:
![1f3ee1eb3f56ef01775d52a5b4e18317.png](https://i-blog.csdnimg.cn/blog_migrate/6d60689e6d0a1ad72662fdc1350d9e18.png)
- 以心理学现象(特鲁普效应)为案例练习相关配对检验
![bfe730d080fc04ff7104be7dfc2aec3d.png](https://i-blog.csdnimg.cn/blog_migrate/4806a1397b0ec10fe322491e76ab8f55.jpeg)
实验内容:将第一组字体颜色读出来,记录全部读完的时间,第二组同样,注意:这边是读字体颜色,而不是字的内容。随机抽取24个人进行实验,每个人有以上2组文字,记录每名实验者分别读出两组文字颜色的时间,汇总到下面表格。
![07c6bb21e88bbb5b61bdccefecee7ede.png](https://i-blog.csdnimg.cn/blog_migrate/b578eeb30fd6e24886b799ec26d70d22.png)
1)描述统计分析
![583fe808e0cfc6363e9630cfa1d097c1.png](https://i-blog.csdnimg.cn/blog_migrate/7b98b9d239a0589420836fe506ceb0ea.jpeg)
![1a23f30ff80d7908e8db6e3b041d5e9d.png](https://i-blog.csdnimg.cn/blog_migrate/5a32d6680d07146c9e231d304d653c5f.jpeg)
![3db96fa73883dde4fc44b2b15d62ec01.png](https://i-blog.csdnimg.cn/blog_migrate/d7f60e4626a8b009a4aa9351086ac5c5.jpeg)
2)推论统计分析——假设检验
2.1问题是什么?
验证心理学现象:特鲁普效应是否存在?
- 零假设和备选假设
零假设:特鲁普效应不存在,第一组平均值 = 第二组平均值 或者 第一组平均值-第二组平均值 = 0
备选假设:特鲁普效应存在,第一组平均值 < 第二组平均值
- 检验类型
![6a5b43a903914d792fde8ed8e3192c0d.png](https://i-blog.csdnimg.cn/blog_migrate/31c4244d743c886830addedcca3261fc.jpeg)
这是相关配对检验:有两组相关数据,那么我们就可以用差值来转化为单样本检验
![8895957dc43d2133d96fe29caaf20e9c.png](https://i-blog.csdnimg.cn/blog_migrate/ac577440ac1c8c58455a8559837f73c5.png)
- 抽样分布
这里面有24个样本大小,所以是小样本抽样,通过可视化来体现差值数据集的分布,可以发现近似正态分布,所以抽样分布是t分布。
![aa1fca2ada046d1cb589231106e7ad47.png](https://i-blog.csdnimg.cn/blog_migrate/ea257af2eed95b93f63a464b1bef0a8a.jpeg)
- 检验方向
通过备选假设,第一组反应平均时间<第二组反应平均时间,备选假设包含小于号,所以是单尾检验中的左尾。
所以本次假设检验是相关配对t检验 单尾检验中的左尾
2.2证据是什么?
计算p的值:
![266b5e8ca76087f249dc436f2d61988b.png](https://i-blog.csdnimg.cn/blog_migrate/564a1c051981253b7178fe393d5632de.jpeg)
也就是说,在没有特鲁普效应存在的假设前提成立下,样本平均值出现的概率是1.8e-08。
2.3判断标准是什么?
我们给定常用的显著水平是5%:
![7092c1046606d8fcd6351529c0323366.png](https://i-blog.csdnimg.cn/blog_migrate/abe30a9c6cb3ad8ca4950070fd6b0555.jpeg)
2.4做出结论?
![d03c603acff9d14942bc0f51755644b4.png](https://i-blog.csdnimg.cn/blog_migrate/7a7a50bab6e5c7966ef603befd750fb7.jpeg)
假设检验报告:
相关配对检验t(23) = -8.09,p=1.8e-08(a=5%),单尾检验(左尾)
存在统计显著,拒绝零假设,从而验证特鲁普效应存在。
3)置信区间
![bdd719f5d8a0f1340eb9e24667d7b2d0.png](https://i-blog.csdnimg.cn/blog_migrate/5e1a23ec77c07bcca746458afb373ab1.jpeg)
这里样本平均值是指差值数据的平均值:
![9cdc232f6810a27ad656eebcd7c7c351.png](https://i-blog.csdnimg.cn/blog_migrate/177e89dc72e0ebcad7e3d40f62b73f1e.png)
置信区间报告:
两个平均值差值的置信区间95%置信水平 CI = [-8.49,-8.36]
4)效应量
![4b053971dbad815c4ec0cb4515192e0d.png](https://i-blog.csdnimg.cn/blog_migrate/122a29330cdb38675d3cb7aff8cfdce0.jpeg)
![8f7496c8fbfddaf4e862d29e71a909f9.png](https://i-blog.csdnimg.cn/blog_migrate/3c4008ae361adba0268aa428774a3959.png)
![86ce9053b7c4fa8fef282c60e86ddbac.png](https://i-blog.csdnimg.cn/blog_migrate/414ff252d8d8f9f50013d50a7ca4de33.png)
效应量报告:
d = -1.65 效果很显著。
- 总结分析报告:
1.描述统计分析:
第一组样本数据:字体内容和颜色一致,平均反应时间是13.927秒,标准差是3.54秒
第二组样本数据:字体内容和颜色不一致,平均反应时间是22.351秒,标准差是5.01秒
“不一致”情况所用的时间均大于“一致”情况,也就是当字体内容和字体颜色不一致时,实验者的平均反应时间变长
2.推论统计分析:
1)假设检验
相关配对检验t(23)=- 8.09,p=1.8e-08(a=5%),单尾检验(左尾)
存在统计显著,拒绝零假设,从而验证特鲁普效应存在。
2)置信区间
两个平均值差值的置信区间,95%置信水平 CI = [-8.49,-8.36]
3)效应量
d = -1.65, 效果很显著。
- 以A/B测试为案例练习独立双样本检验
作为产品经理,你想要知道哪个键盘布局对于用户体验更好呢?
![a0290679d798630aa27f2f2cb88a60d7.png](https://i-blog.csdnimg.cn/blog_migrate/bc05056ba7a86b593362c5678b9ba0c2.jpeg)
如果键盘对于用户拼错字的影响较小,那么这个键盘是符合用户习惯的,因此,我们把目标定位为用户打字时拼错字的影响,将两组用户随机分配到不同的版本,每组实验者25人,A组使用版本A,B组使用键盘版本B,让他们在30秒内打出标准20个单词/文字/消息,记录这些字里面错别字的数量。记录在下面的文件中。
![4f6cc1601801f579898431bb50ef7dfb.png](https://i-blog.csdnimg.cn/blog_migrate/98b2e9dd915ec7412b91476e52b1e632.png)
1.描述统计分析
![0cd6b04e14f76421bdab74f3d2572671.png](https://i-blog.csdnimg.cn/blog_migrate/9d98e3a2715f38f429973fa8bc51f22f.jpeg)
![d2a1a418d8ff65ace6a30143de9fc657.png](https://i-blog.csdnimg.cn/blog_migrate/527866cdc6d4aea206deeac4fed1c14f.png)
![14f642ef641f1b520002c244c7bbe42d.png](https://i-blog.csdnimg.cn/blog_migrate/4d14c972deae1307b12d736e5076e443.jpeg)
2.推论统计分析
2.1假设检验
1)问题是什么?
问题:哪个键盘布局对于用户体验更好呢?
零假设:A版本和B版本没有差别,也就是A版本平均值 = B版本平均值
备选假设:A版本和B版本有差别,也就是A版本平均值 != B版本平均值
检验类型:独立双样本检验
抽样分布:小样本抽样分布的t分布
![9e9e78990c44ad731521d80e194b5f27.png](https://i-blog.csdnimg.cn/blog_migrate/af46fd6a01bc407c2969296ebabef7b8.png)
![2a807dd041a467a3c4d716f4821dfadc.png](https://i-blog.csdnimg.cn/blog_migrate/d3231b451c20e122e26b9034ba1ea07f.jpeg)
检验方向:双尾检验
![d061d164efc5624e8b74f139bfea0a6e.png](https://i-blog.csdnimg.cn/blog_migrate/a5a35bed5b9d7eee58d0da5b44712578.jpeg)
2)证据是什么?
![04c36ea4b2a2f83adf6cea22347ca5c8.png](https://i-blog.csdnimg.cn/blog_migrate/c23118f8647370f734a6d671e864bccf.jpeg)
t = -4.06,p_two=0.00019,df = 45
3)判断标准?
alpha = 5%
![35146d5fd1a6785d0e42c6e425da3631.png](https://i-blog.csdnimg.cn/blog_migrate/96d318ebbad399f8c9abed06d1273720.jpeg)
![a2a943587c1988328588e6b1a3708c03.png](https://i-blog.csdnimg.cn/blog_migrate/1ca570d49506aa46f8ab3c60f093f406.jpeg)
4)得出结论?
![fb590c74098249f08fb72d0920ca059f.png](https://i-blog.csdnimg.cn/blog_migrate/e0aa233dff6e8af26ad7f21596b84d42.jpeg)
![43b93624b5f2ec0bf13a29b3af12aa7b.png](https://i-blog.csdnimg.cn/blog_migrate/890ab63fe7b414ab4423784233f555fe.jpeg)
假设检验报告:
独立双样本t(45) = -4.05,p = .00019(5%),双尾检验
拒绝零假设,存在统计显著,从而验证A版本与B版本存在显著差异。
2.2置信区间
![b7dc80c31b642f2146e310c7c361d6bf.png](https://i-blog.csdnimg.cn/blog_migrate/6737b73f5df9dcc441565e3367769630.jpeg)
![edae625e579fa8c1cfbf80970aec4925.png](https://i-blog.csdnimg.cn/blog_migrate/ad3dedf8ec9580741b602eadde8bdd48.png)
![529841513a7bc82ada72e4f57755eb0a.png](https://i-blog.csdnimg.cn/blog_migrate/8b2d1fe701e7451e794e02c7ea3f54f1.jpeg)
置信区间报告:两个平均值差值的置信区间,95%置信水平 CI = (-2.75,-2.69),A版本用户体验更好,平均少打错字2-3个字。
2.3效应量
![c5d67d0ed0ecb92701cbfd293ee812ef.png](https://i-blog.csdnimg.cn/blog_migrate/5784add257f84961d7587b691799e4c4.jpeg)
![1886b2698c0e0d2e159a5971eabb0930.png](https://i-blog.csdnimg.cn/blog_migrate/68f5b4aa804d369e7d17fe49aa83eaa8.jpeg)
效应量报告:d = -1.14 ,效果显著大
总结:
1.描述统计分析
A版本:
平均打错字个数为5.08个,标准差为2.06个
B版本:
平均打错字个数为7.80个,标准差为2.65个
2.推论统计分析
1)假设检验
独立双样本t(45) = -4.05,p = .00019(5%),双尾检验
拒绝零假设,存在统计显著,从而验证A版本与B版本存在显著差异。
2)置信区间
两个平均值差值的置信区间,95%置信水平 CI = (-2.75,-2.69)
A版本用户体验更好,平均少打错字2-3个字。
3)效应量
d = -1.14 ,效果显著
作为产品经理,发布A版本对于用户体验来说更好。