总结了一些常见的概率与统计类的数据分析面试题,不定期更新……
随机变量的含义
一个随机事件的所有可能的值X,且每个可能值X都有确定的概率P,X就是P(X)的随机变量。比如掷骰子中出现的点数
随机变量和随机试验间有什么关系
- 随机试验:相同条件下对某随机现象进行的大量重复观测的试验,如掷硬币100次统计正面朝上的次数
- 随机变量是用来描述随机试验结果的。
划分连续型随机变量和离散型随机变量的依据
- 离散型随机变量:随机变量X能被一一列举出来,如一批产品中次品的数量,某地区人口的出生数等。
- 连续型随机变量:随机变量X不能被一一列举出来,如一批电子元器件的寿命,身高、体重等。
所以划分二者的依据是随机变量是否可数
变量独立和不相关的区别
若X和Y不相关,通常认为X和Y之间是没有线性关系,但不排除没有其他关系
若X和Y独立,是没有关系,互不干扰
因此,“不相关”是一个比“独立”要弱的概念
常见分布的分布函数/概率密度函数,以及分布的特性。
分别从离散型和连续型两方面说:
离散型随机变量的分布
- 二项分布
进行一系列独立试验 -> 每一次试验都存在成功和失败的可能,且成功的概率相同 -> 试验次数有限。
二项分布记做X~B(n,p),X表示n次试验中的成功次数,我们要求的是成功的次数
如发放100张优惠券,其中x张优惠券被使用的概率就是一个二项分布。
- 伯努利分布
0-1分布,每次试验的结果只有2种,是n=1的二项分布的特殊情况
如掷硬币,只有正面朝上或反面朝上两种情况
-
几何分布
独立试验->拿到一种卡片的概率相同->为了集齐卡片要进行多少次试验 -
泊松分布
单独事件在给定区间内随机、独立地发生(给定区间可以是时间或空间) -> 已知该区间内的事件平均发生次数,且为有限数值。
如某加油站,平均每小时来加油的车辆为10辆,泊松分布求的这个加油站每小时前来加油的车辆次数的概率
关于离散型随机变量分布可参考:
连续型随机变量的分布
-
正态分布
又叫高斯分布,正态分布通过参数平均值和方差确定