常见分布有如下
独立同分布:independent and identically distributed, 简称i.i.d
即是说每个的试验结果都是相互独立,不收前后结果影响,且每一次事件A发生的概率都一样
一、连续型随机变量的常见分布
对于连续型随机变量,使用概率密度函数(probability density function简称PDF)来描述其分布情况
连续型随机变量的特点在于取任何固定值的概率都为0,因此讨论其在特定值上的概率是没有意义的,应当讨论其在某一个区间范围内的概率,这就用到了概率密度函数的概念
假定连续型随机变量X,为概率密度函数f(x), 对于任意实数范围如[a,b],有
对于连续型随机变量,通常还会用到累积分布函数 (cumulative distribution function),简称CDF,来描述其性质,在数学上CDF是PDF的积分形式
分布函数F(x)在点处的函数值表示X落在区间内(-∞,x)的概率,所以分布函数就是定义域R为的一个普通函数
1.1均匀分布
均匀分布指的是一类在定义域内概率密度函数处处相等的统计分布。若X是服从区间[a,b]上的均匀分布,则记作X~U[a,b]。
概率密度函数:
分布函数(其实就是概率密度函数的积分,就是说分布函数的求导即是概率密度函数):
均匀分布的python代码
#1.生成随机数
importnumpy as npimportmatplotlib.pyplot as pltfrom pylab import mpl #显示中文
from scipy importstats
a=np.random.uniform(low=0,high=1,size=1000)#2.计算PDF和CDF
x=np.linspace(0,1,100)
p=stats.uniform.pdf(x,loc=0,scale=1)
c=stats.uniform.cdf(x,loc=0,scale=1)
plt.plot(x,p)
plt.plot(x,c)#统计分布可视化
x=np.linspace(0,1,100)
t= stats.uniform.rvs(0,1,size=10000)
p=stats.uniform.pdf(x, 0, 1)
fig, ax= plt.subplots(1, 1)
sns.distplot(t,bins=10,hist_kws={'density':True}, kde=False,label = 'Distplot from 10000 samples')
sns.lineplot(x,p,color='purple',label='True mass density')
plt.title('Uniforml distribution')
plt.legend(bbox_to_anchor=(1.05, 1))
1.2正态分布
也叫高斯分布,其密度函数为:
记为X~N(μ,σ), 其中μ为正态分布的均值,σ为正态分布的标准差
有了一般正态分布后,可以通过公式变换将其转变为标准正态分布Z~N(0,1),正态分布的例子有:成人身高
中心极限定理说的是一组独立同分布的随机样本的平均值近似为正态分布,无论随机变量的总体符合何种分布
代码实现
1. 产生正态分布的随机数
#生成大小为1000的符合N(0,1)正态分布的样本集,可以用np.random.randn(),也可以用normal函数自定义均值,