此篇为概率论相关,涵盖的并不全面,后续会慢慢的完善,如有纰漏欢迎指正~
目录
知识点参考来源
1.《商务与经济统计》(原书第13版)
2.《校招面试考点全解析——数据分析师篇》
3.百度
一、基本定理
1.1 中心极限定理
定义:当抽样次数足够多时,抽中样本的均值将围绕总体均值上下波动,且呈正态分布。
而根据中心极限定理,我们可以用样本数据来推断总体数据,这也是假设检验成立的条件之一。
例如:如果某食品的净含量按标准应为500g,则抽取10袋食品作为样本来检验产品的净含量,会发现样本净含量的均值呈正态分布,可以确定该产品在净含量上是否达到质量规定标准。
1.2 大数定理
定义:指得是某个随机事件在单次试验中可能发生也可能不发生,但在大量重复实验中往往呈现出明显的规律性,结果的均值将会收敛于某个确定的值,也就是说该随机事件发生的频率会向某个常数值收敛,该常数值即为该事件发生的概率。
大数定理告诉我们可以用频率来近似替代概率,可以用样本均值近似替代总体均值。
二、基本概念
2.1 随机试验
随机试验是一个过程,它所产生的试验结果是可以完全确定的,但在每一次重复试验中,出现哪种结果则完全由偶然性决定。
2.2 样本点
一种特定的试验结果被称为样本点,所有的样本点的集合即为随机试验的样本空间
2.3 互斥、独立、相关
- 互斥:如果两个事件没有公共的样本点,则称这两个事件互斥
- 独立:如果事件A的发生与否不会对事件B造成影响,则称A和B独立
- 相关:对于两个随机变量X,Y,若满足cov(X,Y)=E(XY)-E(X)E(Y)=0,则两个变量不相关。
- 随机变量不相关未必独立,独立必定不相关
2.4 条件概率、全概率公式、贝叶斯公式
2.4.1 条件概率
P(A|B)代表事件B发生的情况下,事件A发生的概率,有
2.4.2 全概率公式:
定义:如果事件B1、B2、B3…Bi构成一个完备事件,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bi)P(Bi)
2.4.3 贝叶斯公式
用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)P(B|A)=P(B)P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)P(A)/P(B)
2.5 参数估计
用样本特征来估计整体特征的方法,称为参数估计,参数估计的形式为点估计与区间估计。
2.5.1 点估计
为了估计总体参数,通过计算相应的样本特征——样本统计量的方法,叫做点估计法,如用样本均值估计总体均值,用样本方标准差估计总体标准差等。
点估计具有以下三个性质:
- 无偏性:如果样本统计量的数学期望等于所估计的总体参数,则称该样本统计量是无偏估计量
- 有效性:称有较小标准误差的点估计量比其他点估计量更相对有效
- 一致性:如果随着样本容量的增大,点估计量的值与总体参数越来越接近,则称该点估计量是一致的
2.5.2 区间估计
我们不可能期望点估计量能给出总体参数的精确值,需要考虑上下波动存在的情况,所以常在点估计上加减一个边际误差来计算区间估计。而这个波动的范围也就是置信区间。