目录
1.p值
1.什么是p值,如何计算?p值的含义
p值是当原假设为真时,样本观测或极端事件出现的概率,一般设置显著性水平为0.05,也就是事件发生的概率小于0.05的事件都是小概率事件,若p值小于0.05,则说明原假设为真时,小概率事件发生了,那么根据—次实验中小概率事件不可能发生的原理,可以说明原假设是不对的,我们要拒绝原假设,接受备择假设
p值的计算方法:
p=2[1-Φ(z0)]:当为双侧检验时
=1-Φ(z0):当为右单侧检验时
=Φ(z0):当为左单侧检验时
2.p值背后的原理是什么?
p值背后的原理是小概率事件和反证法。
也就是小概率事件在一次实验中几乎不可能发生,我们先假设一个事件成立,然后通过计算得到了这个事件出现的概率,也就是p值,若这个事件出现的概率小于0.05,则说明这个事件是一个小概率事件,那么根据小概率事件基本不会发生的原理,可以推断除我们的原假设是不成立的。
2.t检验
1.t值
t值是样本统计量与假设的总体参数之间差异的一种标准化度量,它是根据样本数据计算出来的,并用于确定这个差异是否统计显著。
计算公式
t值的计算公式取决于所进行的t检验的类型(单样本、独立样本或配对样本),但基本的计算公式如下:
对于单样本t检验:
其中:
是样本均值
- μ 是假设的总体均值
- s 是样本标准差
- n 是样本大小
对于独立样本t检验和配对样本t检验,计算公式会有所不同,但基本思想是类似的,即计算两个均值之间的差异,然后除以这个差异的标准误差。
解释
- t值的绝对大小:t值的绝对值越大,表示样本均值与假设的总体均值之间的差异越显著。
- t值的符号:t值的正负号表示样本均值相对于假设的总体均值是偏高还是偏低。
决策规则
在假设检验中,如果计算出的t值超过了t分布的临界值(也称为显著性水平),那么我们拒绝零假设,认为样本均值与假设的总体均值之间存在显著差异。
2.t检验
- 定义:t检验是一种用于小样本数据(通常n<30)的统计检验方法,当总体标准差未知时使用。
- 类型:
- 单样本t检验:用于比较样本均值与已知总体均值之间的差异。
- 独立样本t检验:用于比较两个独立样本群体的均值是否存在显著差异。
- 配对样本t检验:用于比较两个相关样本群体(例如,同一组受试者在不同条件下的测量)的均值是否存在显著差异。
- 假设:t检验通常涉及以下假设:
- 零假设(H0):两组之间没有显著差异。
- 备择假设(H1):两组之间存在显著差异。
- 分布:t检验的统计量服从t分布,该分布是正态分布的一种变体,它依赖于自由度(通常是样本量减去1)。
3.z检验
1.z检验
- 定义:z检验是一种用于大样本数据(通常n>30)的统计检验方法,当总体标准差已知时使用。
- 类型:
- 单样本z检验:用于比较样本均值与已知总体均值之间的差异。
- 独立样本z检验:用于比较两个独立样本群体的均值是否存在显著差异。
- 假设:与t检验类似,z检验也涉及零假设和备择假设。
- 分布:z检验的统计量服从标准正态分布
2.Z检验和T检验的区别与联系
Z检验和T检验都可用于总体均值的统计推断问题
Z检验适用于检验统计量服从或近似服从Z分布的统计推断问题
t检验适用于检验统计量服从T分布的统计推断问题
只有总体服从正态分布,方差未知,样本量小于30的情况下,样本均值才服从T分布,而当样本量大于30时,不管总体是否服从正态分布,方差是否已知,样本均值均服从正态分布
4.显著性
1.什么是显著性水平?
显著性水平是我们设定的可以接受的犯第一类错误的概率,也可以理解为显著性水平是我们设置的小概率事件的阈值,而p值是当原假设为真时,样本检验统计量落入拒绝域的概率。
2.显著性水平与p值的关系是什么?
若p值小于我们设定的显著性水平(当原假设为真时),样本结果出现的概率是一个小概率事件,那么又因为小概率事件在一次实验中不会发生,所以我们就有足够的把握拒绝原假设;反之,当p值大于显著性水平时,说明在这个置信水平(置信水平=1-显著性水平)下,我们没有足够的理由拒绝原假设
5.检验统计量
什么是检验统计量?
检验统计量是用于假设检验的统计量,在原假设成立的条件检验统计量会服从某种分布,根据抽样结果,计算检验统计量的值,然后与临界值进行比较,做出是否拒绝原假设的推断。
6.置信区间
1.你知道置信区间吗?
置信区间是指由样本统计量所构造的总体参数的估计区间,这个估计区间是带有一定概率性质的,比如置信水平为95%,那么95%的置信水平下的置信区间包含总体参数的真实值落在该区间的概率是95%。
2.置信区间的用途是什么?
置信区间的用途:置信区间可以提供关于总体参数的取值范围信息;在AB实验中,通过判断置信区间包不包含0,在0的左侧还是右侧可以做出相应的统计推断(无法判断A方案和B方案哪个更优,实验结果不显著;B不如A;A不如B)
7.大数定律
什么是大数定律?
大数定律(law of large numbers),是―种描述当试验次数很大时所呈现的概率性质的定律,常见的定律有:伯努利大数定律、辛钦大数定律和切比雪夫大数定律
8.中心极限定理
什么是中心极限定理?
中心极限定理,是指概率论中讨论随机变量序列部分和近似服从正态分布的一类定理。该定理表明当独立随机变量足够多且每个随机变量都有有限的方差时,这些随机变量的和(或平均值)将近似地服从正态分布,无论这些随机变量原本服从什么分布。
9.ab实验
1、什么是AB实验?
参考回答:AB实验也称为拆分实验,是指一个随机实验过程,在该实验中某个变量的两个或多个版本同时显示给不同的网站访问群体,以确定哪个版本最能够推动业务的发展
AB实验的本质其实是假设检验,检验的结果可以直接表明哪种版本(方案或策略)更好
2、为什么要做AB实验?
参考回答:用户是变化的,用户的需求也是不断变化的,那么产品也要不断变化才能适应用户需求,为了科学的做出有利于业务的产品功能更改或产品版本更迭,AB实验可以帮助业务做出具有统计意义上的改进,且通过做AB实验可以一步一步地进行低风险修改,而不是一次性进行全局改变。
3、AB实验的优点和缺点是什么?
AB实验的优点:
帮助探索业务增长点,在现有流量中提升投资回报率,
帮助在现有用户基础上提升活跃度帮助实施具有统计意义上的改进,科学量化策略效果
帮助发现用户难点,提高用户留存
AB实验的缺点:
1、设计不同的方案或策略增加了开发的工作量
2、在收集数据时需要一定的实验周期,降低了版本更迭的效率
3、AB实验只能用于一个场景下的不同方案比较,不能用于不同场景下的同种方案效果比较,也就是AB实验不能衡量一个模型的迁移和泛化能力
4、AB实验的适用场景有哪些?
1.产品版本更迭
2.策略优化,包括运营策略或者算法策略
3.网站优化
4.计算新方案带来的ROI(投资回报率)
5、AB实验的基本步骤是什么?
第一步:分析业务数据,确定实验指标(核心指标和观测指标)
第二步:建立实验假设(原假设和备择假设)
第三步:选取实验单位
第四步:确定核心指标的提升阈值
第五步:确定实验所需样本量
第六步:确定分配流量的方案
第七步:确定实验周期
第八步:开始实验,待达到实验周期后,采集数据并分析数据
第九步:根据分析结果做出相应决策
10.一类二类错误
1.什么是第一类错误与第二类错误?
第一类错误也称为弃真错误,即原假设为真,却拒绝原假设的概率。
第二类错误也称为取伪概率,即原假设为假,却没有拒绝原假设的概率。
2.有什么关联?
第一类错误和第二类错误是此消彼长的,即若要减小第一类错误,那么在样本量不变的条件下会增大犯第二类错误的概率,反之亦然。
如果要同时减小犯这两类错误的概率,只有增加样本容量。
在实际问题当中,人人往往把想要否定的东西放在原假设的位置,把想要接受的东西放在备择假设的位置,因此人们会尽量保证犯第一类错误的概率足够小,所以犯第二类错误的概率一般会大于犯第一类错误的概率。
11.假设检验原理
1.什么是假设检验
假设检验是从一种从总体中抽取样本,然后根据样本信息推断总体特征的统计推断方法。
2.原理是什么
其基本原理是小概率事件原理,小概率事件在一次实验中基本不可能发生,如果在该次实验中某个小概率事件发生了,那么说明原假设不可能,拒绝原假设,否则没有充分的理由拒绝原假设
12.卡方检验
什么是卡方检验?
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;
若两个值完全相等时,卡方值就为0,表明理论值完全符合。
卡方检验只适用于分类变量。
13.聚类分析
1.什么是聚类分析?
聚类分析简单来说就是基于数据之间的相似性,将数据划分为不同的类别。
2.说一下常见的聚类方法
常用的聚类算法:
K-Means聚类算法:也就是K均值算法,在给定一个数据集和需要划分的数目k后,该算法可以根据某个距离函数反复把数据划分到k个簇中,直到收敛。
层次聚类算法:分为自上而下和自下而上。前者一开始将全部数据看成一类,然后逐步划分为更小的类,直到收敛;后者一开始将每个数据堪称单独的一类,然后相继合并与其相近的类,直到收敛
DBSCAN密度聚类算法:DBSCAN是—种基于密度的聚类算法,将紧密相连的样本划为一类,这样就得到了一个聚类类别,通过将所有各组紧密相连的样本划为各个不同的类别,就可以得到最终的聚类结果
14.方差分析
了解方差分析吗?
了解,方差分析是利用样本数据检验两个以上的总体均值是否有显著差异的一种分析方法。在研究一个变量时,它能够解决多个总体的均值是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响的方法。方差分析可以看作T检验的扩展,T检验用于两组连续型数据的比较,而方差分析则用于三组或三组以上的连续型数据的比较。
15.PCA
1. PCA是什么?
PCA即主成分分析方法,是重要的降维方法。
2.原理?
其原理是通过对原始的n维变量进行线性变换,得到新的m维变量,这m个新变量能够最大程度承载原始n维变量具有的信息。
16.线性回归
- 线性回归的定义:线性回归是利用数理统计中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。它广泛应用于数据分析领域。
- 类型:线性回归主要分为一元线性回归和多元线性回归。一元线性回归是指只有一个自变量和一个因变量,且它们之间的关系可以用一条直线近似表示。多元线性回归则包括两个或两个以上的自变量。
- 回归方程:线性回归的方程通常表示为 y=w′x+e,
其中 e 是误差项,服从均值为0的正态分布。
在一元线性回归中,方程可以简化为 y=a+bx。
- 最小二乘法:在线性回归中,最小二乘法是一种常用的方法,用于找到数据的最佳拟合直线。它通过最小化误差的平方和来实现。
- 回归分析的目的:主要包括预测和因子分析。预测是建立回归方程来预测因变量的值,而因子分析则是根据回归分析的结果,评估各个自变量对因变量的影响程度。
- 一元线性回归的步骤:一般包括散点图判断变量关系、求相关系数及线性验证、求回归系数建立回归方程、回归方程检验、参数的区间估计和预测等。
- 评价回归线拟合程度:通常通过计算实际值与预测值之间的差异(残差)来评估。一个好的拟合直线应该使这些残差的平方和最小。