[学习笔记]数据与科学训练营之二:概率论导论

1.基础

1.1 概率定义

指的是事件发生的可能性。

明天下雨的概率,中彩票的概率等。

1.2 术语

1.样本空间:试验中可能发生的事件的集合,S

扔硬币时的样本空间: S = {正面(H),背面(T)}
扔骰子时的样本空间:S = {1,2,3,4,5,6}

2.事件:一个特定的时间或者多个事件的组合

一个特定事件:扔出两次硬币,出现一个正面的事件 = {HT,TH}
多个事件的组合:扔一次骰子,点数是2或者3的倍数 = {2,3,4,6}

事件关系
a.事件交集
在这里插入图片描述

b.并集
在这里插入图片描述
c.互斥事件
在这里插入图片描述

d.对立事件
在这里插入图片描述

3.概率
A事件发生的概率: P(A) = A事件发生的次数/样本空间

仍一次硬币出现正面的概率 = 1/2
扔一次骰子,出现点数是偶数的概率 = {2,4,6}/{1,2,3,4,5,6} = 1/2

特性
1.概率为1,表示事件发生的绝对确定性
2.概率为0,表示事件不发生的绝对确定性

4.条件概率
A发生时,发生B的概率
在这里插入图片描述

下表整理出了学C1驾照和C2驾照的学员数量。从C1中挑出一位学员时,该学员为女学生的概率是多少?
在这里插入图片描述
A事件:学C1驾照的学员—P(A) = 9/20
B事件:所有学驾照的女学员 — P(B) = 10/20
AB事件的交集:所有学C1驾照的女学员 P(AnB)= 3/20

从C1中挑出一位学员时,该学员为女学生的概率是:
P(B|A) = P(AnB)/P(A) = (3/20)/(9/20) = 1/3

从女学员中挑出一个学员,该学员学的是C1驾照
P(A|B) = P(AnB)/P(B) = (3/20)/(10/20) = 3/10

1.3 定理

1.3.1 加法定理

1.一般情况

在这里插入图片描述

2.互斥事件
在这里插入图片描述

1.3.2 乘法定理

1.一般情况
在这里插入图片描述

2.独立事件
如果:
在这里插入图片描述
那么:
A, B两个事件为相互独立的

则:
在这里插入图片描述

1.4 期望值

1.实验和试验
例如,抛20次硬币。
试验:每一次抛硬币
实验:抛20次硬币的过程—得到实验概率

2.实验概率
P(A) = 成功的试验次数 / 总试验次数

3.期望值
时间A的期望值表示为E(A)。

E(A) = P(A) *n—P(A)是理论概率

实例1
我们从卡牌中抽出一张黑桃, 抽取20次,期望值是多少?
P(A) = 0.25n = 0.2520 = 5
实例2
我们进行10次射箭,射中A环是10分,射中B环是30, 射中C环是50分,假设每次都能射中目标,P(A) = 0.5, P(B) = 0.4, P©=0.1, 计算一次得分的期望得分。
在这里插入图片描述
E(X) = P(A)*10 + P(B)*30 + P©*50 = 22

1.5 组合与概率的关系

1.排列
一组元素顺序排列方式。
比如:4个人参加接力赛,跑的顺序有多少种?
num = A(4,4) = 4! = 432*1 = 24

注意:
0!=1
n! = n*(n-1)!

2.变分
与排列相比,每次可选元素的种类不变。
比如:密码锁由3位数字组成,那么每位密码的可选数字都是10,那么一共有101010种情况。
计算公式:
在这里插入图片描述
n:元素总数
p:需要补充的位置数

3.组合
比如:5个人参加接力赛,但是只有4个阶段,那么有多少组合方式?
num = C(5,4) = 5! / (4!*(5-4)!) = 5

注意:
C(n,k) = C(n,n-k)
C(6,1) = C(6,5) = 6

2. 概率分布

1.1 术语

1.分布表示
Y:表示事件发生的实际结果
y:表示可能的结果之一
P(Y=y):表示实际结果为y的可能性
P(y): 每种结果的概率,即概率函数

例如:从包中取出红色时候
Y:表示从包中取出红色石头的数量。
y:表示取出5各红色石头
P(Y=5):从包中取出5个红色石头的概率。

2.定义分布类型
X ~ N ( μ, σ^2)
变量 分布类型 一些相关特性

1.2 离散分布

概率质量函数(Probability Mass Function, PMF)

1.2.1 均匀分布

在这里插入图片描述

1.定义
均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值。

2.标记
X~U(a,b): 变量x遵循从a到b的均匀分布

3.实例
投掷骰子时得到16之间的概率相同。XU(1,6)

1.2.2 伯努利分布

在这里插入图片描述
1.定义
只有一次试验,且只有两个可能结果的试验。

2.标记
X ~ Bern§, 变量x遵循伯努利分布,成功概率为p

3.实例
掷硬币(正面/反面)
掷骰子(单数/双数)

4.均值和方差
期望值(均值): E(X) = 1p + 0q = p
方差:var(X) = p*q
失败的概率:q = 1 - p

1.2.3 二项分布

1.定义
n次重复的伯努利实验。

2.标记
如果随机变量X服从参数为n和p的二项分布,我们记为X~B(n,p)
n:试验次数
p:每次试验成功的概率

3.实例
将硬币扔n次

4.期望值和方差
期望值(均值): E(X) = n*p
方差:var(X) = np(1-p)

5.概率函数
在这里插入图片描述
6.曲线
在这里插入图片描述
规律:
1)p<q:右偏
2)p=q:对称
3)p>q:左偏

7.应用实例
抛4次硬币时,正面出现1次.
期望值: E(X=1) = np = 40.5 = 2
方差:var(X) = np(1-p) = 40.50.5 = 1
概率:P(X=1) = C(4,1)0.5^10.53 = 40.5* = 0.25

1.2.4 泊松分布

在这里插入图片描述

1.定义
在单位时间内或者空间内,某个时间发生次数的参数为λ

2.标记
X~ Po(λ)

3.实例
一个小时内进入商场的顾客数量
每生产100件产品,出现残次品的数量

4.概率分布函数
在这里插入图片描述
λ:均值
e:欧拉数, e≈2.7
k:期望实验值

5.均值和期望值
期望值(均值)= 方差= λ

6.应用实例:
老师平均每天留4道作业,如果想知道留7个作业的概率
λ = 4
k = 7
P(X=7) = 4^7/7! * e^-4 = 0.06

1.3 连续分布

概率密度函数(Probability Density Function , PDF)

1.3.1 正态分布

1.定义
又成为“常态分布”,“高斯分布”。两头低,中间高,以均值为中线左右对称的钟形。

2.标记
X~N(μ,σ^2),随机变量X服从给数学期望为μ,方差为σ2的正态分布。

3.标准正态分布
当μ = 0,σ = 1时的正态分布是标准正态分布,也叫做Z分布。

4.一般正态分布转换为标准正态分布
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。

转换公式:
在这里插入图片描述
实例1
假设公共汽车们的高度按成年男性碰头的机会小于1%来设计。又假设成年男性的身高服从正态分布X∼N(170,6^2),求问车门的高度h是多少?
已知:P(z≤2.33)=0.99 (查询标准正态分布表)

解:
1)假设身高为随机变量X,那么问题就可以变为:P(x>h) = 0.01
2)则 1- P(x≤h)=0.01 --》P(x≤h) =0.09
3)因为 X∼N(170,6^2),平均值μ = 170,标准方差σ = 6,
所以利用转换公式,(h-170)/6~N(0,1)
已知 P(z≤2.33)=0.99, 所以(h-170)/6=2.33 --》h = 6*2.33 + 172 = 183.98cm

实例2
现在有一个μ = 10和σ = 2的正态随机变量,求x在10与14之间的概率是多少?

解:
当x=10时,z = (x -μ)/ σ = (10-10)/2 = 0
当x=14时,z = (14-10)/2 = 2
于是,x在10与14之间的概率等价于标准正态分布中0与2之间的概率。
P(0≤x≤2) = P(x≤2) - P(x≤0) = 0.9772 - 0.5 = 0.4772

5.期望值和方差
E(X) = μ
Var(X) = σ^2

6.概率密度函数
一般正态分布:
在这里插入图片描述

标准正态分布:
在这里插入图片描述

7."68-95-99.7"定律
对任何正态分布的事件
1)68%的结果分布在距离平均值1个标准差之内的范围:𝑃(𝜇−𝜎<𝑋<𝜇+𝜎)=0.683
2)95%的结果分布在距离平均值2个标准差之内的范围:𝑃(𝜇−2𝜎<𝑋<𝜇+2𝜎)=0.954
2)99%的结果分布在距离平均值3个标准差之内的范围:𝑃(𝜇−3𝜎<𝑋<𝜇+3𝜎)=0.997
在这里插入图片描述

8.特性
平均= 中值= 众数

9.确认正态分布的方法
直方图,Q-Q

1.3.2 t分布

在这里插入图片描述

1.定义
t-分布用于根据小样本来估计呈正态分布且方差未知的总体的均值。
如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

2.标记
如果变量X服从自由度为3的t分布,记为X~t(3)

自由度
例如:10个礼物中,9个被选中的话,最后一个自动被选定,t分布的自由度为n-1

3.均值和方差
当自由度k>2时:
E(X) = μ
Var(X) = s^2*k/(k-2)

4.用途
1)根据小样本来估计呈正态分布且方差未知的总体的均值
2)线性模型回归系数推断(假设从属变量正态分布)时使用

5.特性
1)自由度越小,t分布曲线愈平坦,曲线中间越低,曲线双侧尾部翘得愈高;
2)自由度越大,越接近标准正态分布;
3)自由度df=∞时,t分布曲线为标准正态分布曲线。
4)均值为0,图形左右对称

1.3.3 卡方分布

在这里插入图片描述

1.定义
若n个相互独立的随机变量ξ₁,ξ₂,…,ξn,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

2.标记
如果变量X服从自由度为3的卡方分布,记为: X~𝑋²(3)

3.用途
1)总体方差推断时(假设数据正态分布)使用;
2)卡方检验(独立性检验,同质性检验)

4.性质
1)自由度越大,越接近正态分布
2)卡方分布密度曲线下的面积都是1

5.均值和方差
E(X) = k
Var(X) = 2k

1.3.4 F分布

1.定义
是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布,且位置不可互换。

若总体X~N(0,1) ,(X1,X2,…,Xn1) 与 (Y1,Y2,…,Yn2) 为来自X的两个独立样本,设统计量
在这里插入图片描述
则称统计量F服从自由n1 和 n2的F分布,记为F~F(n1,n2)

2.用途
方差分析、回归方程

1.3.5 指数分布

1.定义
是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。

2.标记
X~Exp(λ)

3.实例
电子产品寿命
第一位顾客进入商场所用的时间

4.均值和方差
均值=1/λ
方差=1/(λ^2)

1.3.6 罗吉斯蒂克分布(Logistic)

通常用于逻辑建模

1.标记
变量X遵循罗吉斯蒂克分布,位置为μ,尺度为S, 记为X~Logistic(μ, S)

2.均值和方差
E(X) =
Var(X) = (S2*Π2)/3

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值