简述因果性和相关性的差别:
因果是A导致B,相关只是A和B有关。比如夏天人容易溺水,也会吃冰淇淋,但不能说吃冰淇淋就会溺水。
A/B测试系列文章之A/B测试背后的科学原理 - Jeff的数据科学笔记jeffshow.com![967b4bed051579390b2b418bc901754e.png](https://img-blog.csdnimg.cn/img_convert/967b4bed051579390b2b418bc901754e.png)
假设检验的基本原理:
假设检验 - MBA智库百科wiki.mbalib.com![df43f9cf90bfde53f246e56ef9bb8f01.png](https://img-blog.csdnimg.cn/img_convert/df43f9cf90bfde53f246e56ef9bb8f01.png)
(1)反证法:先提出假设,然后确定假设成立的可能性大小,如果可能性太小,就拒绝这个假设。
(2)小概率事件:指小概率事件在一次实验中基本不会发生。
假设检验的两类错误是指哪两类,更害怕哪一类:
第一类错误:拒绝了原假设,但是原假设为真。
第二类:没有拒绝原假设,但是原假设为伪。
更害怕第一类错误。误认为有效是更加可怕的。
什么是中心极限定理:
中心极限定理通俗介绍www.zhuxichi.com![ea906e42fa19becfa31af2b9c02a3938.png](https://img-blog.csdnimg.cn/img_convert/ea906e42fa19becfa31af2b9c02a3938.png)
![705babd0bdce643e3a1b668957f02df3.png](https://img-blog.csdnimg.cn/img_convert/705babd0bdce643e3a1b668957f02df3.png)
定义:给定任意分布的,样本数量足够大的情况下,独立随机变量的均值可呈现正态分布。
关键点1:任意分布
关键点2:均值
中心极限定理对ABtest的指导意义:
很多指标不是正态分布的,但是只要我们进行重复抽样,这些指标的均值会呈现正态分布。这些指标均值的均值将会成为正态分布的mean,这些指标均值的方差会成为正态分布的variance。确定分布以后,通过观察值我们可以知道事件发生的概率。如果这个随机事件发生的概率很小,我们可以从而拒绝原假设。
统计检验的基本步骤:
Z检验 - MBA智库百科wiki.mbalib.com![3ac4d696e5a55de4e09ec6b669d5a97c.png](https://img-blog.csdnimg.cn/img_convert/3ac4d696e5a55de4e09ec6b669d5a97c.png)
(1)建立虚无假设,确定显著性水平。
(2)确立虚无假设成立状态下的概率p。
(3)根据p的大小判断虚无假设是否成立。
如何计算所需要的样本量:
有公式。
解释显著水平:
一个判断的阈值。一般来讲就是0.05,当p值小于0.05时拒绝原假设。
显著性水平和type I error的关系:
相等
解释p值:
小概率事件发生的概率。
p值的分布:
[0,1] 均匀分布。
AAtest:
建议先做AAtest看看p值是否呈均匀分布。
置信度:
1-显著水平
置信区间:
拿到数据以后先做标准化成为N(0,1),找到p值对应的Z分数,再把标准化的Z投射回去(乘以均值的方差,再加减),得到一个Z分数的区间。最后看我们要比较的这个数字是否落在这个区间内。
如何判断是否显著:
A/B测试系列文章之怎么判断实验结果是否显著 - Jeff的数据科学笔记jeffshow.com![2ce9db3a0b9abb4ac616f2fa5220a136.png](https://img-blog.csdnimg.cn/img_convert/2ce9db3a0b9abb4ac616f2fa5220a136.png)
利用Z分数,Z分数可以和p值相互推导。
或者把数据标准化以后对应找p值。
如何判断正态性:
胡保强:如何理解正态性检验方法?zhuanlan.zhihu.comQQ图:横轴是标准正态分布的分位数,纵轴是样本值。看是否落在对角线。
均值的假设检验:Z(同方差&异方差)
(1)提出问题,建立假设,确定显著性水平。
(2)计算Z分数,根据Z计算p值。
(3)比较p值和置信水平,从而确定是否要拒绝原假设。
T检验:
Z检验和T检验的差别:
Z方差已知,T方差未知。
Z适合大数据,T适合小数据。
均值的假设检验:单样本T
假设:(1)观测变量属于正态分布
(2)没有异常值
(3)方差是否相等
均值的假设检验:独立样本T(同方差&异方差)
(1)提出问题,建立假设,设立显著性水平。
(2)标准化,计算Z值。
(3)根据Z值计算p值,从而确定是否要拒绝原假设。
如何检测方差齐性:
如果数据是正态分布,F检验。
卡方检验:
使用场景:
T检验和卡方检验 | 网站数据分析webdataanalysis.net![4ef6d3ebd1dd63359b7a07e928102f47.png](https://img-blog.csdnimg.cn/img_convert/4ef6d3ebd1dd63359b7a07e928102f47.png)
适合两个样本概率间的比较,不需要知道方差。基于二项分布或者是
F检验:
使用场景:
(1)服从正态分布的数据,是否拥有一样的方差。
(2)解释变量与被解释变量的线性关系在总体上是否显著
步骤:
(1)提出问题建立假设,确定置信水平。
(2)计算统计量,确定p值。
(3)p与置信水平进行比较,决定是否拒绝原假设。