
描述数据
1.频数分布表、树图、 频数密度=频数/组距
2.算数平均值、中位数、众数
3.四分位数间距法(剔除异常值)/百分位数
计算步骤:a.数据排序 b.中位数分成项数相等的高低两组 c.低值组中位数,第一四分位数Q1
d.高值组中位数,第三四分位数Q3 e.四分位间距 IQR=Q3-Q1
展示方式:矩形-胡须图(也叫箱线图)
标准离差
1.方差
2.标准差
3.z-比值/标准比值 :从数据点到平均值的标准离差个数
4.经验法则:对于接近正态分布的数据集合,约68%的数据分布在平均值左右各一个的标准离差的区间内;约95%的数据分布在平均数左右各两个的标注离差的区间内。所有数据分布在左右三个标准差的区间内。超过均为异常值,呈现可用箱型图。
切比雪夫定理
定义:任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2,其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。
辛普森悖论
定义:当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。举例:辛普森悖论就像是欲比赛总胜率评价好坏,于是有人A场挑战20 场而胜15场,另外B场100场挑战而胜10场,总胜率21%,另一人A场挑战100场而胜49场,而B场20场胜了1场,总胜率为42%,分场胜率前者更高,但总胜率显然后者更高。解决措施:为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
概率
1.相关定义:随机试验、基本结果、样本空间、古典概率、相对频率、个别概率
2.概率树:1分出层级 2填写已知信息 3每一级分支的概率和为1
3.概率交并补的计算&条件概率
4.贝叶斯定理:先验+似然(信息)->逼近真实(后验)
公式: P(AIB)=P(A)*P(BIA)/P(A)*P(BIA)+P(A')*P(BIA')
举例:现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个红球,问这个球来自容器 A 的概率是多少?
答:假设已经抽出红球为事件 B,选中容器 A 为事件 A,则有:P(B) = 8/20,P(A) = 1/2,P(B|A) = 7/10,按照公式,则有:P(A|B) = (7/10)*(1/2) / (8/20) = 0.875
随机变量
随机变量:对试验结果的数值描述。
离散型随机变量:有限多个值或无限可数多个值的随机变量。
连续性随机变量:某一个区间内任意值的随机变量。
区别:随机变量是否可数。
期望:概率分布的平均数
期望值 :随机变量的平均数=每个数值*发生概率之和
方差、标准离差:结果的分散性
E(X)+E(Y)=E(X+Y) Var(X+Y)=Var(X)+Var(y)
E(X)-E(Y)=E(X-Y) Var(X-Y)=Var(X)+Var(y)
排列组合
排列 (与顺序有关)
有序排列 阶乘 n ! 圆形排位 (n-1)!
重复排列公式(按类型排位):如果n个对象排位,其中包括第一个对象k个,第二类对象j个…,则排位公式 n!/j!k!m!..
组合(与顺序无关)
C(n r)=n!/r!(n-r)!
离散性概率分布
几何分布 :进行多次独立重复试验,每一次试验都有成功和失败的可能,取得成功需要试验几次。
P(X=r)=q(r-1)p
P(X>r)=q的r次幂
p(x<=r)=1- q的r次幂
X~Geo§:X符合几何分布,其成功率为p
期望E(X)=1/P
方差Var(X)=q/p2
二项分布 :一系列的独立重复试验,每一次试验都存在失败和成功的可能,每一次试验的成功概率相同,试验次数有限。
1. 事件的结果只有两种,且“非黑即白”彼此对立。
2. 事件之间彼此独立。
3. 独立事件发生(或不发生)的概率已知。
概率:P(X=r)=[nCr]PrQn-r [nCr]=n!/r!(n-r)!
期望:公式:如果r~ B(r,p),那么E(r)=np
方差:公式:如果r~ B(r,p),那么Var(r)=npq泊松分布 X~Po(λ) :单独事件在给定区间内随即发生、独立的发生,给定区间可以是时间或空间,已知该区间的事件平均发生次数(发生率),且为有限数值。
简述:单位时间内独立事件发生的次数的概率分布。
1.单个事件发生与否,以及发生概率是独立的。
2.已知给定区间(时间/空间)内,事件平均发生次数(发生率);
3.发生的次数是有限的。
p(X=r)=e的-λ次幂* λ的r次幂/r! (e=2.718)
E(X)=λ
Var(X)=λ
当二项分布的n很大且P很小时,可以用泊松分布代替二项分布 X~Po(np) 近似代替 X~B(n,p)。
正态分布
定义:X~N(μ,δ2) μ曲线的中间位置,δ2分散性,δ2越大,正态分布曲线越扁平、越宽。基本步骤:
1.确定分布和范围 均值μ,方差δ2
2.标准化 N(0,1) X-μ,Z=(X-μ) /δ
3.查找概率 概率表查找概率,Z保留2位小数 (例如-3.27 第一列找-3.2 第一行找0.07 )4.P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a)
5.aX+b~N(aμ+b,a2δ2)
正态分布近似代替二项分布:如果X-B(N,P),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。μ=np且δ2=npq 使用时应该进行连续性修正, P(X<=a),应额外增加0.5, P(X>=a),应额外减去0.5,P(a<=X<=b)=P(a-0.5<X<b+0.5)
正态分布近似代替泊松分布 :如果X-Po(λ)且λ>15,则可用X~N(λ,λ)进行近似。 需要进行连续性修正。
小结:
连续概率分布----概率密度函数:面积=概率 (总面积=1)
标准正态分布(二项分布的正态近似 连续性校正因子)
指数分布(累计概率)(泊松分布)
抽样
分类:简单随机抽样(无偏性 独立性 重复/不重复抽样)/分层抽样/整群抽样/等距抽样/机会抽样
中心极限定理 :
定义:只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。
大数定理:当 样本容量N趋于无穷时,经验风险趋于期望风险。
1.如果X的样本很大,则均值的分布近似为正态分布。[二项分布 X(均值-N(np,pq),泊松分布X(均值)~N(λ,λ/n)]
2.如果从一个非正态总体X中取出一个样本,且样本很大,则均值的分布近似为正态分布。
3.如果总体的均值和方差为μ和δ2,且n很大。例如 >30,X(均值)~N(μ,δ2/n)
比列抽样分布:E(Ps)=p Var(Ps)=pq/n
其中:p为总体比例;比例标准误差√Var(Ps);如果n>30,则Ps符合正态分布,Ps~N(p,pq/n),使用这个公式时需要进行连续性修正:± 1/2n
置信区间
- 选择总体统计量
- 求出其抽样分布
- 决定置信水平
- 求出置信上下限
- 求Z,用μ改写不等式,即可得到μ的置信区间,最后求均值
假设检验
基本步骤:
1.确定要进行检验假设
2.选择检验统计量
3.确定用于作决策的拒绝域
4.求出检验统计量的P值
5.查看样本结果是否位于拒绝域内
6.做出决策
z分布和t分布如何选择?
z分布:总体方差已知并且样本个数大于30;
t分布:总体的方差未知或者样本个数小于30
样本量:通过边际误差逆推样本容量n.
比较两个总体的方法
1.当总体数量少的时候,比较两总体的标准离差
2.当总体数量大的时候,比较两总体的平均数
总体均值的区间估计:(总体标准差已知)
样本的抽样分布服从标准误差=总体标准差/√样本量 的正态分布
95%的值在均值附近±1.96个标准差内,即在置信区间为95%的情况下,总体的均值区间为 μ±1.96σ
方差分析
定义:用于两个及两个以上样本均数差别的显著性检验。
基本步骤:
1、建立检验假设:H0:多个样本总体均值相等;H1:多个样本总体均值不相等或不全等。检验水准为0.05。
2、计算检验统计量F值;
3、确定P值并作出推断结果
T检验:T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异。
适用条件:(1) 已知一个总体均数;(2) 可得到一个样本均数及该样本标准差;(3) 样本来自正态或近似正态总体。
问题:难产儿出生数n = 35,体重均值 μ= 3.42,S = 0.40,一般婴儿出生体重 μ0= 3.30(大规模调查获得),问相同否?
解:1.建立假设、确定检验水准α
H0:μ = μ0 (零假设null hypothesis)
H1:μ ≠ μ0(备择假设alternative hypothesis)
双侧检验,检验水准:α=0.05
2.计算检验统计量 t=(μ- μ0)/(S/√n)=1.77 v=n-1=34
3.查相应界值表,确定P值,下结论。
查附表:t0.025 / 34 = 2.032, t < t0.025 / 34, P >0.05,按α=0.05水准,不拒绝H0,两者的差别无统计学意义。F检验:最常用的别名叫做联合假设检验,此外也称方差比率检验、方差齐性检验。它是一种在零假设之下,统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。
基本步骤:
1.计算样本标准偏差的平方,即:S2=∑(-)2/(n-1)
2.两组数据就能得到两个S2值 F=S2/S2'
3.计算的F值与查表得到的F表值比较,如果F < F表 表明两组数据没有显著差异;F ≥ F表 表明两组数据存在显著差异。
适用场景:
1.假设一系列服从正态分布的母体,都有相同的标准差。这是最典型的F检验,该检验在方差分析(ANOVA)中也非常重要。
2.假设一个回归模型很好地符合其数据集要求,检验多元线性回归模型中被解释变量与解释变量之间线性关系在总体上是否显著。卡方检验:统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
检验方法:
独立四格表资料检验:四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1. 专用公式:若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)
自由度v=(行数-1)(列数-1)=1
2. 应用条件:要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。注意:卡方检验针对分类变量。
方差分析检验和假设检验的区别
方差分析可以简单理解为检验两个变量间是否存在因果关系,而假设检验是检验两个结果是否存在显著差异。小结(各个分布的应用 ):
1.方差已知情况下求均值是Z检验。
2.方差未知求均值是t检验(样本标准差s代替总体标准差R,由样本平均数推断总体平均数) 3.均值方差都未知求方差是X^2检验
4.两个正态分布样本的均值方差都未知情况下求两个总体的方差比值是F检验。 案例解析:
1.如果想研究不同性别的用户对两个促活的评价是否存在显著差异,用什么?
答:如果男和女对促活的评价是存在显著差异的,那就意味着性别会影响对促活的体验。所以性别可以看成是促活的影响因素,此时就要用方差分析。方差分析又分为单因素方差分析和多因素方差分析,方差分析是做因素分析。
2.如果想研究两个促活的效果,(比如看这两个促活在10天之内各自所带来的平均销量)是否存在显著差异,用什么?
答:你还能用方差分析吗?两个促活之间是影响和被影响的关系吗?不是,两个促活之间是相互独立的,都是结果,你要比较的是这两个结果是否真的存在好坏之分,所以不能用方差分析。而要做这两个促活的平均销量检验(即两个总体均值之差的检验)也就是假设检验。
3.假如AB测试如果测得数据是数值型的(比如停留时间等),那么用方差分析还是Z检验合适? 答:AB测试,是对两个版本测试,相互之间不存在影响与被影响的关系,而是相互独立的两个结果,所以你要测的不是它俩是否真有关联,而是它俩是否真有差异,因此做Z检验是合适的。
回归分析
线性回归
简单线性回归y=ax+b
误差平方和 SSE=∑(y-y(预测值))2
总的平方和 SST=∑(y-y(均值))2
回归平方和 SSR=∑(y(预测值)-y(均值))2
三者的关系 SST=SSR+SSE
判定系数 R2=SSR/SST
最小二乘法:通过使因变量的观测值与因变量的预测值之间的离差平方和达到最小,得到估计的回归方程。
协方差:协方差表示的是两个变量总体误差的期望。标准差和方差一般是用来描述一维数据的离散程度,协方差就是这样一种用来度量两个随机变量关系的统计量,S>0正向线性关系,S=0无线性关系,S<0负线性关系。
相关系数:相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。
显著性检验:t检验和f检验
均方误差: S2=MSE=SSE/N-2
估计的标准误差 s=√MSE
t检验
1.假设y=ax+b+c。原假设:a=0 备选假设 a≠0
2.检验统计量 t=b1/s(b1为样本回归方程的斜率 s:b1的标准差)
3.拒绝法则:p值≤α,则拒绝原假设
F检验
1.原假设,备选假设
2.检验统计量:F=MSR/MSE
MSR=SSR / 回归自由度(自变量个数)=SSR
3.拒绝法则:p值≤α,则拒绝原假设
时间序列分析
水平模式:(数据围绕一个不变的均值上下波动)趋势模式:尽管时间序列数据通常呈现随机起伏的状态,但在较长一段时间内,仍然呈现出逐步的改变或移动到相对较高或较低的值。季节模式:在连续的时间段观测同样的重复模式来确认季节模式。循环模式:如果时间序列图显示出持续时间超过一年的在趋势线上下交替的点序列,则存在循环模式。
准确度评估:预测误差=实际值-预测值 (预测精度的测度是预测误差的均值或平均数)MAE(预测误差绝对值的平均数)
MSE(预测误差平方和的平均数)
MAPE(平均绝对百分数误差)百分数误差=当周预测误差/实际值分析方法:移动平均法:移动平均法是用一组最近的实际数据值来预测未来一期或几期内公司产品的需求量、公司产能等的一种常用方法。简单移动平均的各元素的权重都相等。加权移动平均法:加权移动平均给固定跨越期限内的每个变量值以不相等的权重。
其原理是:历史各期产品需求的数据信息对预测未来期内的需求量的作用是不一样的。除了以n为周期的周期性变化外,远离目标期的变量值的影响力相对较低,故应给予较低的权重。
指数平滑法:实际上是一种特殊的加权移动平均法。
其特点是: 第一,指数平滑法进一步加强了观察期近期观察值对预测值的作用,对不同时间的观察值所赋予的权数不等,从而加大了近期观察值的权数,使预测值能够迅速反映市场实际的变化。权数之间按等比级数减少,此级数之首项为平滑常数a,公比为(1- a)。第二,指数平滑法对于观察值所赋予的权数有伸缩性,可以取不同的a 值以改变权数的变化速率。
其预测公式为:yt+1'=ayt+(1-a)yt'
式中,yt+1'--t+1期的预测值,yt--t期的实际值; yt'--t期的预测值。
季节指数法:根据呈现季节变动的时间序列资料,用求算术平均值方法直接计算各月或各季的季节指数,据此达到预测目的的一种方法。
直接平均季节指数法的一般步骤如下:
①收集历年(通常至少有三年)各月或各季的统计资料(观察值)。
②求出各年同月或同季观察值的平均数(用A表示)。
③求历年间所有月份或季度的平均值(用B表示)。
④计算各月或各季度的季节指数,即C=A/B。
⑤根据未来年度的全年趋势预测值,求出各月或各季度的平均趋势预测值,然后乘以相应季节指数,就得未来年度内各月和各季度包括季节变动的预测值。
区别:
简单的全期平均法是对时间数列的过去数据一个不漏地全部加以同等利用;移动平均法则不考虑较远期的数据,并在加权移动平均法中给予近期资料更大的权重;而指数平滑法则兼容了全期平均和移动平均所长,不舍弃过去的数据,但是仅给予逐渐减弱的影响程度,即随着数据的远离,赋予逐渐收敛为零的权数。
注:以上均为自我学习整理,才疏学浅若有错误请及时联系我修正,避免误导,谢谢~