拿下数据分析Offer之统计学

最新推荐文章于 2024-09-16 15:30:35 发布

eHerat

最新推荐文章于 2024-09-16 15:30:35 发布

阅读量174

点赞数

分类专栏：统计学文章标签：数据分析概率论数据挖掘

本文链接：https://blog.csdn.net/qq_56068678/article/details/128485646

版权

统计学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、基础概念：随机变量、分布函数、概率密度函数

Q：什么是随机变量？随机变量和随机试验之间有什么不同？

先了解一下什么叫随机试验。随机试验：在指定相同的条件下对某随机现象进行的大量重复观测(例如：抛硬币)。

随机试验的三个特点：

1️⃣：在试验前不能断定产生什么结果，但可明确说明试验的全部可能结果是什么；

2️⃣：在相同的条件下可重复试验；

3️⃣：重复试验的结果是以随机方式出现的。

随机变量：用于描述随机试验的结果，通常用大写X来表示，X可能是一个单独的随机试验结果，也可能是多个随机试验结果的组合。

Q：如何区分不同的随机变量？

可以根据随机变量的分布来区分不同的随机变量。“随机变量的分布”：每次随机试验的结果会有一定的随机性，但是这样的随机性是基于一定规律而产生的，这个规律也是概率与数理统计中所关注的。通过了解随机变量的分布，就能够在试验开始前与之最终产生的结果。

Q：什么是样本？样本和随机变量之间有什么关系？

可以将样本理解为每次随机试验的结果，也称为“观测值”。根据样本量不同，将不同的随机试验称为样本量为n的随机试验。

抛硬币的试验：随机试验

单次抛硬币的结果：样本（x）

N次抛硬币结果的均值：随机变量（X）

Q：随机变量是怎么进行分类的？分类依据是什么？

随机变量分为两种：离散型随机变量和连续型随机变量。二者的区别在于所描述的随机试验所有可能的结果数量是否可数，“可数”而不是“有限”。

可数的含义是，所有可能的结果是否能够按照一定的次序序列举出来。比如某网站每天的用户数量，可以按照1，2，3，.......的次序列举出来，即使最终可能的结果数量是无限的，它也依然是离散型随机变量。而连续型随机变量的结果由于处于某个区间中，比如转化率可以说[0，1]区间中的任意值，无法按照次序列举出来，这也是二者的本质区别。

Q：常见的离散型随机变量有哪些？它们各自有什么样的分布律？

对于离散型随机变量，通常用Pr（X=x）来描述某个试验结果发生的概率，也称为变量的分布律，不同的分布律对应不同的分布。以下列举常见的离散型随机变量的分布：

（1）伯努利分布：也称为0-1分布。顾名思义，每次试验的结果只有两种，“非A即B”，用0、1来表示。用p表示事件1发生的概率，1-p表示事件0发生的概率，则Pr（X=1）=p，Pr（X=0）=1-p。最常见的例子就是掷硬币试验，将正面朝上记为1，反面朝上记为0，则Pr（X=1）=0.5，Pr（X=0）=0.5。最常见的例子就是掷硬币试验，将正面朝上记为1，反面朝上记为0，则Pr（X=1）=0.5，Pr（X=0）=0.5。同理，对于优惠券的转化率，使用优惠券记为1，可以近似看作一个概率为p的伯努利分布，Pr（X=1）=p，p就是所要关注的优惠券的转化率。

（2）二项分布：n个重复独立的伯努利分布称为n重伯努利分布，也称为二项分布。

重复独立表明：①每个伯努利分布事件发生的概率均为p；

②各个试验的结果相互独立，不受其他试验的结果干扰。

二项分布在工作中有比较多的应用，以发放优惠券为例，发放出去的1000张优惠券是否被使用可以近似看作1000个相互独立，且每张优惠券被使用的概率为p的伯努利分布所组成的二项分布，从而得到最终有x张优惠券被使用的概率为

（3）泊松分布：这是一种离散概率分布，适合描述在单位时间（或空间）内随机事件发生的次数。