1、基础概念:随机变量、分布函数、概率密度函数
Q:什么是随机变量?随机变量和随机试验之间有什么不同?
先了解一下什么叫随机试验。随机试验:在指定相同的条件下对某随机现象进行的大量重复观测(例如:抛硬币)。
随机试验的三个特点:
1️⃣:在试验前不能断定产生什么结果,但可明确说明试验的全部可能结果是什么;
2️⃣:在相同的条件下可重复试验;
3️⃣:重复试验的结果是以随机方式出现的。
随机变量:用于描述随机试验的结果,通常用大写X来表示,X可能是一个单独的随机试验结果,也可能是多个随机试验结果的组合。
Q:如何区分不同的随机变量?
可以根据随机变量的分布来区分不同的随机变量。“随机变量的分布”:每次随机试验的结果会有一定的随机性,但是这样的随机性是基于一定规律而产生的,这个规律也是概率与数理统计中所关注的。通过了解随机变量的分布,就能够在试验开始前与之最终产生的结果。
Q:什么是样本?样本和随机变量之间有什么关系?
可以将样本理解为每次随机试验的结果,也称为“观测值”。根据样本量不同,将不同的随机试验称为样本量为n的随机试验。
抛硬币的试验:随机试验
单次抛硬币的结果:样本(x)
N次抛硬币结果的均值:随机变量(X)
Q:随机变量是怎么进行分类的?分类依据是什么?
随机变量分为两种:离散型随机变量和连续型随机变量。二者的区别在于所描述的随机试验所有可能的结果数量是否可数,“可数”而不是“有限”。
可数的含义是,所有可能的结果是否能够按照一定的次序序列举出来。比如某网站每天的用户数量,可以按照1,2,3,.......的次序列举出来,即使最终可能的结果数量是无限的,它也依然是离散型随机变量。而连续型随机变量的结果由于处于某个区间中,比如转化率可以说[0,1]区间中的任意值,无法按照次序列举出来,这也是二者的本质区别。
Q:常见的离散型随机变量有哪些?它们各自有什么样的分布律?
对于离散型随机变量,通常用Pr(X=x)来描述某个试验结果发生的概率,也称为变量的分布律,不同的分布律对应不同的分布。以下列举常见的离散型随机变量的分布:
(1)伯努利分布:也称为0-1分布。顾名思义,每次试验的结果只有两种,“非A即B”,用0、1来表示。用p表示事件1发生的概率,1-p表示事件0发生的概率,则Pr(X=1)=p,Pr(X=0)=1-p。最常见的例子就是掷硬币试验,将正面朝上记为1,反面朝上记为0,则Pr(X=1)=0.5,Pr(X=0)=0.5。最常见的例子就是掷硬币试验,将正面朝上记为1,反面朝上记为0,则Pr(X=1)=0.5,Pr(X=0)=0.5。同理,对于优惠券的转化率,使用优惠券记为1,可以近似看作一个概率为p的伯努利分布,Pr(X=1)=p,p就是所要关注的优惠券的转化率。
(2)二项分布:n个重复独立的伯努利分布称为n重伯努利分布,也称为二项分布。
重复独立表明:①每个伯努利分布事件发生的概率均为p;
②各个试验的结果相互独立,不受其他试验的结果干扰。
二项分布在工作中有比较多的应用,以发放优惠券为例,发放出去的1000张优惠券是否被使用可以近似看作1000个相互独立,且每张优惠券被使用的概率为p的伯努利分布所组成的二项分布,从而得到最终有x张优惠券被使用的概率为
(3)泊松分布:这是一种离散概率分布,适合描述在单位时间(或空间)内随机事件发生的次数。
Q:常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?
掌握累积分布函数(CDF)、概率密度函数(PDF)的概念!
(1)均匀分布:即概率密度函数在结果区间内为固定数值的分布。
(2)正态分布:
(3)指数分布: