我们需要描述一组数据时候,本质上需要描述每一个点。但是如果我们可以用分布去表示这些数据,就只需要均值或者方差分布参数,大大节省了存储空间。
离散型随机分布
伯努利分布:一次实验,结果只有两种结果。$p(k)=p^k(1-p)^{(1-k)}, kin{0, 1}$,期望:$p$,方差:$p(1-p)$
二项分布:n次伯努利实验正好得到k次成功的概率,单次成功的概率为p。当n=1的时候退化到伯努利分布。当p=0.5的时候,整体上和正态分布图形类似。$p(k)=C_n^kp^k(1-p)^{n-k}$,期望:$np$,方差:$np(1-p)$
几何分布:进行n次伯努利实验,在获取成功前需要进行多少次实验。分布图形是越往前概率越大,$p(k)=(1-p)^{k-1}p$, 期望$frac{1}{p}$, 方差是$frac{(1-p)}{p^k}$
泊松分布:单位时间内独立事件发生次数的概率分布,它是二项分布n很大而p很小时的极限。泊松分布可以把单位时间切成n次,每次成功的概率为p,那么单位时间内出现k次的概率就是二项分布,所以泊松分布是二项分布的一种极限形式。它的分布图形也和二项分布类似,特别是n很大而p很小时。$p(k)=frac{e^{-lambda}lambda^k}{k!}$, 期望和方差都是$lambda$,其中k是发生的次数,$lambda$是发生的平均次数,当$lambda>=20$时,泊松分布趋向于正态分布。
指数分布:对应于泊松分布,指数分布是指两次独立事件发生的时间间隔的概率分布。 $p(k)=lambda e^{-lambda k}$