为什么会有随机变量的提法?很多随机事件的样本空间是不能用数字来表示的,比如掷骰子,如果掷一次它的样本空间就是{正面,反面},是非数字表示,如果掷三次{HHH,TTT,HHT,HT,TTH,TH}。这样是无法用数学模型来计算的,所以考虑用一个规则来将样本空间的事件数字化。所以就引出了随机变量的概念,实现样本空间中的事件到实数的一个映射,通过函数关系来映射,这个函数就是随机变量。我们可以基于一组实验数据定义不同的随机变量,来研究不同的问题,随机变量可以不同的。
k比如我们可以用X(e)=3,e=HHH来表示样本空间中HHH这个基本时间,X代表三次投掷中出现正面的次数。所以随机变量不是代数中的未知数的概念,它代表了一个函数关系,自变量是事件,函数值是一个实数,满足单值实函数的要求。这个函数对应离散时间就是一个表(如果函数值域是离散、有限的,称为离散型随机变量分布律),对应连续变量就是一个曲线(如取值是连续的连续型随机变量称为分布)。
随机实验:掷骰子三次
样本空间:{HHH,HHT,HTT,HTH,TTT,THH,TTH,THH,THT}
随机变量:正面(H)出现的次数,X(e)=0,1,2,3,4 ;e分别对应{TTT},{HTT,TTH}....
同样,也可以定义随机变量为反面出现的次数,同上。他们对样本空间构成了一个划分,每一个值对应了一个基本事件,所以所有事件同时发生的概率即为样本空间,也意味着概率为1。
随机变量的概率如何计算呢?如上例中X=2出现的概率,就可以用P(X=2)={HHT,HTH,THH)/{HHH,...,TTT)=3/8
这里有两个分布类型要注意,一个是0-1分布,一个是二项分布。
0-1分布是对随机变量X只有0-1取值时的最简单的描述,比如一次投掷硬币,如果定义X为出现正面的次数,则该随机变量满足0-1分布,因为正面要么出现X为1,要么不出现X取0。所以他的分布律很简单假设出现的概率为p,则P(X=1)=p,P(X=0)=1-p。
二项分布:对应与贝努利实验,就是只有两个可能结果的实验,其实就是对应0-1分布的推广。将实验进行n次,则称为n重贝努利实验,满足二项分布。公式就不列了,但是二项分布的特点是事件出现的概率先增加后减少。n重贝努利实验中,概率随着恰好出现k次正面的次数的增大先增后减,数学表示为b(n,p),n为贝努利实验的次数,p为事件发生的概率。这个很有用,比如产品的质量控制等领域经常用到。p是一个先验的知识,需要从历史数据中获得。
泊松分布:对于随机变量的概率为P(X=k)满足泊松公式的X,称为满足泊松分布。泊松分布其实就是二项分布中n趋于无穷大的情况。比如一件产品次品率为0.1%,问1000件产品中恰好有两个次品发生的概率,其实就是二项分布的应用,1000远大于0.001,所以可以用泊松分布来近似。而泊松分布的常数为n与p的乘积。
从上面三个分布形式可以看出,0-1分布->二项分布->泊松分布的关系是递进的。0-1分布对应一次贝努利实验,二项分布对应于n重贝努利实验,泊松分布对应于有n趋于无穷大时候的贝努利实验。