数据分析面试之统计的基础知识(持续更新)

本文是数据分析面试系列的一部分,主要探讨统计学的基础知识,包括概率、先验概率与后验概率、大数定律、贝叶斯定理、中心极限定理等。还介绍了切比雪夫不等式、正态分布、泊松分布以及各种分布之间的关系。此外,讲解了协方差、相关系数的概念,以及参数估计与假设检验,如T检验、F检验和卡方检验。
摘要由CSDN通过智能技术生成

数据分析面试系列

统计的基础知识-1

参考:https://blog.csdn.net/CSDN___CSDN/article/details/81662608

1.概率知识点回顾

  1. 概率:

发生事件A的概率 P(A) = 发生事件A的数目 / 所有结果的数目

概率= 用数值来表示某件事发生的可能性

  • 先验概率与后验概率:

【先验概率】是 以全事件为背景下,A事件发生的概率,P(A|Ω)
【后验概率】是 以新事件B为背景下,A事件发生的概率, P(A|B)

全事件一般是统计获得的,所以称为先验概率,没有实验前的概率

新事件一般是实验,如试验B,此时的事件背景从全事件变成了B,该事件B可能对A的概率有影响,那么需要对A现在的概率进行一个修正,从P(A|Ω)变成 P(A|B),

所以称 P(A|B)为后验概率,也就是试验(事件B发生)后的概率

  1. 事件

对立事件 A’: P(A’) = 1 - P(A)
互斥事件:如果两个事件是互斥事件,两个事件不可能同时发生
独立事件:不受过去事件的影响
相关事件: 受过去事件的影响。多个独立事件的概率:P(AB)=P(A)*P(B)

  1. 条件概率:事件A在另外一个事件B已经发生下发生的概率

事件A***与***事件B的概率等于在***事件A发生的条件下,事件B发生的概率***

p(A,B)=P(A)*P(B|A) =P(B)*P(A|B);
P(B|A)是A发生的条件下事件B发生的概率.

  1. 大数定律:

如果统计的数据足够大,那么事件出现的频率就能无限接近他的期望;期望=预期值 (期望的本质是概率的平均值)如果统计数据很少,那么时间就表现为各种极端事件,而这些情况都是偶然事件,跟它的期望值一点关系都没有。

  1. 贝叶斯定理:

给定条件x的情况下hypothesis H成立的概率
P(H|X)=P(H,X)/P(X)=P(X|H)*P(H)/P(X)

(贝叶斯决策树分析原理:
X:一个记录和已经标记的记录有相同的属性值
H:这个记录应该属于该标记类
求最大的P(Hi|X)->该记录分类为i类别:P(X|Hi)*P(Hi)/P(X)
分母P(X)一样的 ->求最大的P(X|Hi)*P(Hi)
预测:
P(Hi)=ni/N(所有记录中label为i的数目/总记录数目)
\prod_{k=1}^{n}{P(X_k\vbar H_i\ )}=\prod_{k=1}^{n}\frac{n_{ik}}{n_i}
k为属性数目,nik指未标记记录中第k个属性的值和标记为i的记录第k个属性的值相同的数目
)

  1. 中心极限定理(CLT)

中心极限定理指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。即不管数据样本总体符合什么分布,样本的均值是符合正态分布的。
中心极限定理
1)任何一个样本的平均值将会约等于其所在总体的平均值。
(2)不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
中心极限定理作用:
(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体。
(2)根据总体的平均值和标准差,判断某个样本是否属于总体。

7.切比雪夫不等式

切比雪夫不等式

设随机变量X的数学期望E(X)=mu,方差D(X)=sigma ^{2},对任意的varepsilon >0,有

在这里插入图片描述

在这里插入图片描述

例题:

已知随机变量X的数学期望E(X)=100,方差D(X)=10,试估计X落在(80,120)内的概率

解:

由切比雪夫不等式

在这里插入图片描述

  1. 随机变量:

期望 :在这里插入图片描述方差:
在这里插入图片描述

标准差: 在这里插入图片描述

  • 样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量(数据稳定性),样本方差或样本标准差越大,样本数据的波动就越大。
    标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
  1. 线性变换:

基本概率保持不变,Y的新值其形式为aX+b,随机变量X发生的是线性变化

线性变换的通用公式:
在这里插入图片描述

在这里插入图片描述

  1. 认识独立观测值

如:在赌博机上玩多局赌局时,每一局称为一个事件,每一局的结果称为一个观测值,每一个观测值具有相同的期望和方差,但观测值(每一局收益)互有差别。如果用X代表赌博机收益的概率分布,则把第一个观测值称为 [公式] 把第二个观测值称为 [公式] ; [公式][公式] 的期望和方差相同,但互为不相干事件; [公式] 具有和X一样的概率。

要求出两局赌博机的期望和方差,实际上就是要求 X1+X2 的期望和方差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值