数据分析统计知识—概率论

此篇为概率论相关,涵盖的并不全面,后续会慢慢的完善,如有纰漏欢迎指正~

目录

知识点参考来源

一、基本定理

1.1 中心极限定理

1.2 大数定理

二、基本概念

2.1 随机试验

2.2  样本点

2.3 互斥、独立、相关

2.4 条件概率、全概率公式、贝叶斯公式

2.4.1 条件概率

2.4.2 全概率公式:

2.4.3 贝叶斯公式

2.5 参数估计

2.5.1 点估计

2.5.2 区间估计


知识点参考来源


1.《商务与经济统计》(原书第13版)
2.《校招面试考点全解析——数据分析师篇
3.百度


一、基本定理

1.1 中心极限定理

定义:当抽样次数足够多时,抽中样本的均值将围绕总体均值上下波动,且呈正态分布。

而根据中心极限定理,我们可以用样本数据来推断总体数据,这也是假设检验成立的条件之一。

例如:如果某食品的净含量按标准应为500g,则抽取10袋食品作为样本来检验产品的净含量,会发现样本净含量的均值呈正态分布,可以确定该产品在净含量上是否达到质量规定标准。

1.2 大数定理

定义:指得是某个随机事件在单次试验中可能发生也可能不发生,但在大量重复实验中往往呈现出明显的规律性,结果的均值将会收敛于某个确定的值,也就是说该随机事件发生的频率会向某个常数值收敛,该常数值即为该事件发生的概率。

大数定理告诉我们可以用频率来近似替代概率,可以用样本均值近似替代总体均值。


二、基本概念

2.1 随机试验

随机试验是一个过程,它所产生的试验结果是可以完全确定的,但在每一次重复试验中,出现哪种结果则完全由偶然性决定。

2.2  样本点

一种特定的试验结果被称为样本点,所有的样本点的集合即为随机试验的样本空间

2.3 互斥、独立、相关

  • 互斥:如果两个事件没有公共的样本点,则称这两个事件互斥
  • 独立:如果事件A的发生与否不会对事件B造成影响,则称A和B独立
  • 相关:对于两个随机变量X,Y,若满足cov(X,Y)=E(XY)-E(X)E(Y)=0,则两个变量不相关。
  • 随机变量不相关未必独立,独立必定不相关

2.4 条件概率、全概率公式、贝叶斯公式

2.4.1 条件概率

P(A|B)代表事件B发生的情况下,事件A发生的概率,有P(A|B)=\frac{P(A\bigcap B)}{P(B)}=\frac{P(AB)}{P(B)}

2.4.2 全概率公式:

定义:如果事件B1、B2、B3…Bi构成一个完备事件,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bi)P(Bi)

2.4.3 贝叶斯公式

用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)P(B|A)=P(B)P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)P(A)/P(B)

2.5 参数估计

用样本特征来估计整体特征的方法,称为参数估计,参数估计的形式为点估计与区间估计。

2.5.1 点估计

为了估计总体参数,通过计算相应的样本特征——样本统计量的方法,叫做点估计法,如用样本均值估计总体均值,用样本方标准差估计总体标准差等。

点估计具有以下三个性质:

  • 无偏性:如果样本统计量的数学期望等于所估计的总体参数,则称该样本统计量是无偏估计量
  • 有效性:称有较小标准误差的点估计量比其他点估计量更相对有效
  • 一致性:如果随着样本容量的增大,点估计量的值与总体参数越来越接近,则称该点估计量是一致的

2.5.2 区间估计

我们不可能期望点估计量能给出总体参数的精确值,需要考虑上下波动存在的情况,所以常在点估计上加减一个边际误差来计算区间估计。而这个波动的范围也就是置信区间。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值