概率统计无处不在,它被广泛地应用于各行各业,金融、保险、天气预测等都离不开统计概率,本次分享是对统计概率基础知识的梳理和总结。
统计概率的几个基础定义
概率
概率是对事件发生可能性的数值度量,介于0~1之间,数值越大发生的可能性越高。比如说,对于“明天下雨”这一事件,如果天气预报称:“降水的概率几乎为零”,则我们能理解为明天几乎不可能下雨;如果天气预报称“降水的概率为90%”,则意味着明天极有可能要下雨。
事件
在统计概率中,用事件表示某件事情,在一定条件下可能发生可能不发生的事件成为随机事件,例如抛一次硬币,可能正面朝上,也可能反面朝上。
随机变量
随机变量是对事件结果的数值描述。例如抛一次硬币会有两个结果:正面朝上或者反面朝上,我们将正面朝上用1表示,反面朝上用0表示。则0和1即是随机变量。
根据不同事件的属性我们可将随机变量分为:离散随机变量与连续随机变量。例如事件A:明天是否下雨?有下雨和不下雨两个结果,那么事件A属于离散型。事件B:明天日间雨量如何?日间不同时间段每时每分每秒甚至都各不相同,那么事件B属于连续型。
两者的差异体现在数值取值上:离散随机变量可取有限多个或者无限可数个,而连续随机变量可取某一区间或多个区间的任意值。
概率分布
随机变量的概率分布:用统计分布图描述随机变量取不同值时的概率,横坐标为随机变量的取值,纵坐标为对应取值的概率。
概率分布可分为:离散概率分布和连续概率分布。
两者的差异体现在概率计算上:离散概率分布通过概率质量函数(PMF)计算出某特定取值的概率,而连续概率分布则通过概率密度函数(PDF)计算出某区间取值的概率(即通过曲下面积计算概率,连续概率分布的某一特定取值概率为零)。
离散概率分布
1 伯努利分布(Bernoulli Distribution)
伯努利试验(Bernoulli Experiment)是在同样的条件下,重复的、相互独立地进行的一种随机试验。其特点是该随机试验只有两种可能结果:发生1或者不发生0,发生的概率为p,则不发生的概率为1-p。
例如:进行一次抛硬币试验就符合伯努利试验的条件,假设成功的概率为0.5,失败的概率为1-0.5。
伯努利分布的Python实现:
# 导入包
from scipy.stats import bernoulli
import matplotlib.pyplot as plt
% matplotlib inline
from scipy.stats import bernoulli
r=[0,1] # 事件的随机变量 成功为1 失败为0
p=0.5 # 成功的概率为0.5 失败的概率为1-p
result=bernoulli.pmf(r,p) # 调用概率质量函数pmf 返回随机变量对应发生概率