数据分析面试之统计的基础知识（持续更新）

最新推荐文章于 2024-06-06 10:34:14 发布

Sukey酱

最新推荐文章于 2024-06-06 10:34:14 发布

阅读量3k

点赞数 1

分类专栏：数据分析文章标签：数据分析统计学

本文链接：https://blog.csdn.net/Bellaxx/article/details/108034240

版权

本文是数据分析面试系列的一部分，主要探讨统计学的基础知识，包括概率、先验概率与后验概率、大数定律、贝叶斯定理、中心极限定理等。还介绍了切比雪夫不等式、正态分布、泊松分布以及各种分布之间的关系。此外，讲解了协方差、相关系数的概念，以及参数估计与假设检验，如T检验、F检验和卡方检验。

摘要由CSDN通过智能技术生成

数据分析面试系列

统计的基础知识-1

参考：https://blog.csdn.net/CSDN___CSDN/article/details/81662608

1.概率知识点回顾

概率：

发生事件A的概率 P(A) = 发生事件A的数目 / 所有结果的数目

概率= 用数值来表示某件事发生的可能性

先验概率与后验概率：

【先验概率】是以全事件为背景下,A事件发生的概率，P(A|Ω)
【后验概率】是以新事件B为背景下,A事件发生的概率， P(A|B)

全事件一般是统计获得的，所以称为先验概率，没有实验前的概率

新事件一般是实验，如试验B，此时的事件背景从全事件变成了B，该事件B可能对A的概率有影响，那么需要对A现在的概率进行一个修正，从P(A|Ω)变成 P(A|B)，

所以称 P(A|B)为后验概率，也就是试验(事件B发生)后的概率

事件

对立事件 A’: P(A’) = 1 - P(A)
互斥事件:如果两个事件是互斥事件，两个事件不可能同时发生
独立事件：不受过去事件的影响
相关事件：受过去事件的影响。多个独立事件的概率：P（AB）=P（A）*P（B）

条件概率：事件A在另外一个事件B已经发生下发生的概率

事件A***与***事件B的概率等于在***事件A发生的条件下，事件B发生的概率***

p(A,B)=P(A)*P(B|A) =P(B)*P(A|B);
P(B|A)是A发生的条件下事件B发生的概率.

大数定律：

如果统计的数据足够大，那么事件出现的频率就能无限接近他的期望；期望=预期值（期望的本质是概率的平均值）如果统计数据很少，那么时间就表现为各种极端事件，而这些情况都是偶然事件，跟它的期望值一点关系都没有。

贝叶斯定理：

给定条件x的情况下hypothesis H成立的概率
P(H|X)=P(H,X)/P(X)=P(X|H)*P(H)/P(X)

(贝叶斯决策树分析原理：
X:一个记录和已经标记的记录有相同的属性值
H:这个记录应该属于该标记类
求最大的P(Hi|X)->该记录分类为i类别:P(X|Hi)*P(Hi)/P(X)
分母P(X)一样的 ->求最大的P(X|Hi)*P(Hi)
预测：
P(Hi)=ni/N(所有记录中label为i的数目/总记录数目)
\prod_{k=1}^{n}{P(X_k\vbar H_i\ )}=\prod_{k=1}^{n}\frac{n_{ik}}{n_i}
k为属性数目，nik指未标记记录中第k个属性的值和标记为i的记录第k个属性的值相同的数目
)

中心极限定理（CLT）

中心极限定理指出，如果样本量足够大，则变量均值的采样分布将近似于正态分布，而与该变量在总体中的分布无关。即不管数据样本总体符合什么分布，样本的均值是符合正态分布的。
中心极限定理
1）任何一个样本的平均值将会约等于其所在总体的平均值。
（2）不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的平均值周围，并且呈正态分布。
中心极限定理作用：
（1）在没有办法得到总体全部数据的情况下，我们可以用样本来估计总体。
（2）根据总体的平均值和标准差，判断某个样本是否属于总体。

7.切比雪夫不等式

切比雪夫不等式

设随机变量X的数学期望E(X)=mu，方差D(X)=sigma ^{2}，对任意的varepsilon >0，有

在这里插入图片描述

即

在这里插入图片描述

例题：

已知随机变量X的数学期望E(X)=100，方差D(X)=10，试估计X落在(80,120)内的概率

解：

由切比雪夫不等式

在这里插入图片描述

随机变量：

期望：在这里插入图片描述方差：

标准差：在这里插入图片描述

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差；样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量（数据稳定性），样本方差或样本标准差越大，样本数据的波动就越大。
标准差与方差不同的是，标准差和变量的计算单位相同，比方差清楚，因此很多时候我们分析的时候更多的使用的是标准差。

线性变换：

基本概率保持不变，Y的新值其形式为aX+b，随机变量X发生的是线性变化

线性变换的通用公式：
在这里插入图片描述

在这里插入图片描述

认识独立观测值

如：在赌博机上玩多局赌局时，每一局称为一个事件，每一局的结果称为一个观测值，每一个观测值具有相同的期望和方差，但观测值（每一局收益）互有差别。如果用X代表赌博机收益的概率分布，则把第一个观测值称为 [公式] 把第二个观测值称为 [公式] ； [公式][公式] 的期望和方差相同，但互为不相干事件； [公式] 具有和X一样的概率。

要求出两局赌博机的期望和方差，实际上就是要求 X1+X2 的期望和方差