拿下数据分析Offer之统计学

1、基础概念:随机变量、分布函数、概率密度函数

Q:什么是随机变量?随机变量和随机试验之间有什么不同?

        先了解一下什么叫随机试验随机试验:在指定相同的条件下对某随机现象进行的大量重复观测(例如:抛硬币)。

随机试验的三个特点:

1️⃣:在试验前不能断定产生什么结果,但可明确说明试验的全部可能结果是什么;

2️⃣:在相同的条件下可重复试验;

3️⃣:重复试验的结果是以随机方式出现的。

        随机变量:用于描述随机试验的结果,通常用大写X来表示,X可能是一个单独的随机试验结果,也可能是多个随机试验结果的组合

Q:如何区分不同的随机变量?

        可以根据随机变量的分布来区分不同的随机变量。“随机变量的分布”:每次随机试验的结果会有一定的随机性,但是这样的随机性是基于一定规律而产生的,这个规律也是概率与数理统计中所关注的。通过了解随机变量的分布,就能够在试验开始前与之最终产生的结果。

Q:什么是样本?样本和随机变量之间有什么关系?

        可以将样本理解为每次随机试验的结果,也称为“观测值”。根据样本量不同,将不同的随机试验称为样本量为n的随机试验。

抛硬币的试验:随机试验

单次抛硬币的结果:样本(x

N次抛硬币结果的均值:随机变量(X

Q:随机变量是怎么进行分类的?分类依据是什么?

        随机变量分为两种:离散型随机变量连续型随机变量。二者的区别在于所描述的随机试验所有可能的结果数量是否可数,“可数”而不是“有限”。

        可数的含义是,所有可能的结果是否能够按照一定的次序序列举出来。比如某网站每天的用户数量,可以按照1,2,3,.......的次序列举出来,即使最终可能的结果数量是无限的,它也依然是离散型随机变量。而连续型随机变量的结果由于处于某个区间中,比如转化率可以说[0,1]区间中的任意值,无法按照次序列举出来,这也是二者的本质区别

Q:常见的离散型随机变量有哪些?它们各自有什么样的分布律?

        对于离散型随机变量,通常用Pr(X=x)来描述某个试验结果发生的概率,也称为变量的分布律,不同的分布律对应不同的分布。以下列举常见的离散型随机变量的分布:

        (1)伯努利分布也称为0-1分布。顾名思义,每次试验的结果只有两种,“非A即B”,用0、1来表示。用p表示事件1发生的概率,1-p表示事件0发生的概率,则Pr(X=1)=p,Pr(X=0)=1-p。最常见的例子就是掷硬币试验,将正面朝上记为1,反面朝上记为0,则Pr(X=1)=0.5,Pr(X=0)=0.5。最常见的例子就是掷硬币试验,将正面朝上记为1,反面朝上记为0,则Pr(X=1)=0.5,Pr(X=0)=0.5。同理,对于优惠券的转化率,使用优惠券记为1,可以近似看作一个概率为p的伯努利分布,Pr(X=1)=p,p就是所要关注的优惠券的转化率。

        (2)二项分布n个重复独立伯努利分布称为n重伯努利分布,也称为二项分布

重复独立表明:①每个伯努利分布事件发生的概率均为p;

                        ②各个试验的结果相互独立,不受其他试验的结果干扰。

二项分布在工作中有比较多的应用,以发放优惠券为例,发放出去的1000张优惠券是否被使用可以近似看作1000个相互独立,且每张优惠券被使用的概率为p的伯努利分布所组成的二项分布,从而得到最终有x张优惠券被使用的概率为

        (3)泊松分布:这是一种离散概率分布,适合描述在单位时间(或空间)内随机事件发生的次数。

Q:常见的连续型随机变量有哪些?它们各自有什么样的概率密度函数?

        掌握累积分布函数(CDF)、概率密度函数(PDF)的概念!

        (1)均匀分布:即概率密度函数在结果区间内为固定数值的分布。

        (2)正态分布:

        (3)指数分布:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值