数据分析面试系列
统计的基础知识-1
1.概率知识点回顾
- 概率:
发生事件A的概率 P(A) = 发生事件A的数目 / 所有结果的数目
概率= 用数值来表示某件事发生的可能性
- 先验概率与后验概率:
【先验概率】是 以全事件为背景下,A事件发生的概率,P(A|Ω)
【后验概率】是 以新事件B为背景下,A事件发生的概率, P(A|B)
全事件一般是统计获得的,所以称为先验概率,没有实验前的概率
新事件一般是实验,如试验B,此时的事件背景从全事件变成了B,该事件B可能对A的概率有影响,那么需要对A现在的概率进行一个修正,从P(A|Ω)变成 P(A|B),
所以称 P(A|B)为后验概率,也就是试验(事件B发生)后的概率
- 事件
对立事件 A’: P(A’) = 1 - P(A)
互斥事件:如果两个事件是互斥事件,两个事件不可能同时发生
独立事件:不受过去事件的影响
相关事件: 受过去事件的影响。多个独立事件的概率:P(AB)=P(A)*P(B)
- 条件概率:事件A在另外一个事件B已经发生下发生的概率
事件A***与***事件B的概率等于在***事件A发生的条件下,事件B发生的概率***
p(A,B)=P(A)*P(B|A) =P(B)*P(A|B);
P(B|A)是A发生的条件下事件B发生的概率.
- 大数定律:
如果统计的数据足够大,那么事件出现的频率就能无限接近他的期望;期望=预期值 (期望的本质是概率的平均值)如果统计数据很少,那么时间就表现为各种极端事件,而这些情况都是偶然事件,跟它的期望值一点关系都没有。
- 贝叶斯定理:
给定条件x的情况下hypothesis H成立的概率
P(H|X)=P(H,X)/P(X)=P(X|H)*P(H)/P(X)
(贝叶斯决策树分析原理:
X:一个记录和已经标记的记录有相同的属性值
H:这个记录应该属于该标记类
求最大的P(Hi|X)->该记录分类为i类别:P(X|Hi)*P(Hi)/P(X)
分母P(X)一样的 ->求最大的P(X|Hi)*P(Hi)
预测:
P(Hi)=ni/N(所有记录中label为i的数目/总记录数目)
\prod_{k=1}^{n}{P(X_k\vbar H_i\ )}=\prod_{k=1}^{n}\frac{n_{ik}}{n_i}
k为属性数目,nik指未标记记录中第k个属性的值和标记为i的记录第k个属性的值相同的数目
)
- 中心极限定理(CLT)
中心极限定理指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。即不管数据样本总体符合什么分布,样本的均值是符合正态分布的。
中心极限定理
1)任何一个样本的平均值将会约等于其所在总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。
7.切比雪夫不等式
切比雪夫不等式
设随机变量X的数学期望E(X)=mu,方差D(X)=sigma ^{2},对任意的varepsilon >0,有
即
例题:
已知随机变量X的数学期望E(X)=100,方差D(X)=10,试估计X落在(80,120)内的概率
解:
由切比雪夫不等式
- 随机变量:
期望 :方差:
标准差:
- 样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量(数据稳定性),样本方差或样本标准差越大,样本数据的波动就越大。
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
- 线性变换:
基本概率保持不变,Y的新值其形式为aX+b,随机变量X发生的是线性变化
线性变换的通用公式:
- 认识独立观测值
如:在赌博机上玩多局赌局时,每一局称为一个事件,每一局的结果称为一个观测值,每一个观测值具有相同的期望和方差,但观测值(每一局收益)互有差别。如果用X代表赌博机收益的概率分布,则把第一个观测值称为 [公式] 把第二个观测值称为 [公式] ; [公式][公式] 的期望和方差相同,但互为不相干事件; [公式] 具有和X一样的概率。
要求出两局赌博机的期望和方差,实际上就是要求 X1+X2 的期望和方差