[学习笔记]数据与科学训练营之二：概率论导论

shitou987

于 2021-04-23 13:13:15 发布

阅读量768

点赞数

分类专栏：数据分析文章标签：概率论

本文链接：https://blog.csdn.net/shitou987/article/details/116051870

版权

数据分析专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1.基础

1.1 概率定义

指的是事件发生的可能性。
如
明天下雨的概率，中彩票的概率等。

1.2 术语

1.样本空间：试验中可能发生的事件的集合，S
如
扔硬币时的样本空间： S = {正面(H)，背面(T)}
扔骰子时的样本空间：S = {1，2，3，4，5，6}

2.事件：一个特定的时间或者多个事件的组合
如
一个特定事件：扔出两次硬币，出现一个正面的事件 = {HT,TH}
多个事件的组合：扔一次骰子，点数是2或者3的倍数 = {2，3，4，6}

事件关系
a.事件交集
在这里插入图片描述

b.并集
在这里插入图片描述
c.互斥事件

d.对立事件
在这里插入图片描述

3.概率
A事件发生的概率： P(A) = A事件发生的次数/样本空间
如
仍一次硬币出现正面的概率 = 1/2
扔一次骰子，出现点数是偶数的概率 = {2，4，6}/{1，2，3，4，5，6} = 1/2

特性
1.概率为1，表示事件发生的绝对确定性
2.概率为0，表示事件不发生的绝对确定性

4.条件概率
A发生时，发生B的概率
在这里插入图片描述
如
下表整理出了学C1驾照和C2驾照的学员数量。从C1中挑出一位学员时，该学员为女学生的概率是多少？

A事件：学C1驾照的学员—P(A) = 9/20
B事件：所有学驾照的女学员 — P(B) = 10/20
AB事件的交集：所有学C1驾照的女学员 P(AnB)= 3/20

从C1中挑出一位学员时，该学员为女学生的概率是:
P(B|A) = P(AnB)/P(A) = (3/20)/(9/20) = 1/3

从女学员中挑出一个学员，该学员学的是C1驾照
P(A|B) = P(AnB)/P(B) = (3/20)/(10/20) = 3/10

1.3 定理

1.3.1 加法定理

1.一般情况

在这里插入图片描述

2.互斥事件
在这里插入图片描述

1.3.2 乘法定理

1.一般情况
在这里插入图片描述

2.独立事件
如果：
在这里插入图片描述
那么：
A, B两个事件为相互独立的

则：
在这里插入图片描述

1.4 期望值

1.实验和试验
例如，抛20次硬币。
试验：每一次抛硬币
实验：抛20次硬币的过程—得到实验概率

2.实验概率
P(A) = 成功的试验次数 / 总试验次数

3.期望值
时间A的期望值表示为E(A)。

E(A) = P(A) *n—P(A)是理论概率

实例1
我们从卡牌中抽出一张黑桃，抽取20次，期望值是多少？
P(A) = 0.25n = 0.2520 = 5
实例2
我们进行10次射箭，射中A环是10分，射中B环是30，射中C环是50分，假设每次都能射中目标，P(A) = 0.5, P(B) = 0.4, P©=0.1, 计算一次得分的期望得分。
在这里插入图片描述
E(X) = P(A)*10 + P(B)*30 + P©*50 = 22

1.5 组合与概率的关系

1.排列
一组元素顺序排列方式。
比如：4个人参加接力赛，跑的顺序有多少种？
num = A(4,4) = 4! = 432*1 = 24

注意：
0！=1
n! = n*(n-1)!

2.变分
与排列相比，每次可选元素的种类不变。
比如：密码锁由3位数字组成，那么每位密码的可选数字都是10，那么一共有101010种情况。
计算公式：
在这里插入图片描述
n:元素总数
p:需要补充的位置数

3.组合
比如：5个人参加接力赛，但是只有4个阶段，那么有多少组合方式？
num = C(5,4) = 5! / (4!*(5-4)!) = 5

注意：
C(n,k) = C(n,n-k)
C(6,1) = C(6,5) = 6

2. 概率分布

1.1 术语

1.分布表示
Y:表示事件发生的实际结果
y:表示可能的结果之一
P(Y=y):表示实际结果为y的可能性
P(y)：每种结果的概率，即概率函数

例如：从包中取出红色时候
Y：表示从包中取出红色石头的数量。
y:表示取出5各红色石头
P(Y=5)：从包中取出5个红色石头的概率。

2.定义分布类型
X ~ N （ μ， σ^2）
变量分布类型一些相关特性

1.2 离散分布

概率质量函数(Probability Mass Function, PMF)

1.2.1 均匀分布

在这里插入图片描述

1.定义
均匀分布也叫矩形分布，它是对称概率分布，在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义，它们是数轴上的最小值和最大值。

2.标记
X~U(a,b)：变量x遵循从a到b的均匀分布

3.实例
投掷骰子时得到1_{6之间的概率相同。X}U(1,6)

1.2.2 伯努利分布

在这里插入图片描述
1.定义
只有一次试验，且只有两个可能结果的试验。

2.标记
X ~ Bern§, 变量x遵循伯努利分布，成功概率为p

3.实例
掷硬币（正面/反面）
掷骰子（单数/双数）

4.均值和方差
期望值（均值）： E(X) = 1p + 0q = p
方差：var(X) = p*q
失败的概率：q = 1 - p

1.2.3 二项分布

1.定义
n次重复的伯努利实验。

2.标记
如果随机变量X服从参数为n和p的二项分布，我们记为X~B(n,p)
n:试验次数
p:每次试验成功的概率

3.实例
将硬币扔n次

4.期望值和方差
期望值（均值）： E(X) = n*p
方差：var(X) = np(1-p)

5.概率函数
在这里插入图片描述
6.曲线

规律：
1）p<q：右偏
2）p=q：对称
3）p>q：左偏

7.应用实例
抛4次硬币时，正面出现1次.
期望值: E(X=1) = np = 40.5 = 2
方差：var(X) = np(1-p) = 40.50.5 = 1
概率：P(X=1) = C(4,1)0.5^10.53 = 40.5* = 0.25

1.2.4 泊松分布

在这里插入图片描述

1.定义
在单位时间内或者空间内，某个时间发生次数的参数为λ

2.标记
X~ Po(λ)

3.实例
一个小时内进入商场的顾客数量
每生产100件产品，出现残次品的数量

4.概率分布函数
在这里插入图片描述
λ:均值
e：欧拉数， e≈2.7
k:期望实验值

5.均值和期望值
期望值（均值）= 方差= λ

6.应用实例：
老师平均每天留4道作业，如果想知道留7个作业的概率
λ = 4
k = 7
P(X=7) = 4^7/7! * e^-4 = 0.06

1.3 连续分布

概率密度函数(Probability Density Function , PDF)

1.3.1 正态分布

1.定义
又成为“常态分布”，“高斯分布”。两头低，中间高，以均值为中线左右对称的钟形。

2.标记
X~N(μ，σ^2),随机变量X服从给数学期望为μ，方差为σ2的正态分布。

3.标准正态分布
当μ = 0,σ = 1时的正态分布是标准正态分布，也叫做Z分布。

4.一般正态分布转换为标准正态分布
为了便于描述和应用，常将正态变量作数据转换。将一般正态分布转化成标准正态分布。

转换公式：
在这里插入图片描述
实例1
假设公共汽车们的高度按成年男性碰头的机会小于1%来设计。又假设成年男性的身高服从正态分布X∼N(170,6^2)，求问车门的高度h是多少？
已知：P(z≤2.33)=0.99 (查询标准正态分布表)

解：
1）假设身高为随机变量X，那么问题就可以变为：P(x>h) = 0.01
2）则 1- P(x≤h)=0.01 --》P(x≤h) =0.09
3）因为 X∼N(170,6^2)，平均值μ = 170,标准方差σ = 6，
所以利用转换公式，(h-170)/6~N(0,1)
已知 P(z≤2.33)=0.99，所以(h-170)/6=2.33 --》h = 6*2.33 + 172 = 183.98cm

实例2
现在有一个μ = 10和σ = 2的正态随机变量，求x在10与14之间的概率是多少？

解：
当x=10时，z = (x -μ)/ σ = (10-10)/2 = 0
当x=14时，z = (14-10)/2 = 2
于是，x在10与14之间的概率等价于标准正态分布中0与2之间的概率。
P(0≤x≤2) = P(x≤2) - P(x≤0) = 0.9772 - 0.5 = 0.4772

5.期望值和方差
E(X) = μ
Var(X) = σ^2

6.概率密度函数
一般正态分布：
在这里插入图片描述

标准正态分布：
在这里插入图片描述

7."68-95-99.7"定律
对任何正态分布的事件
1）68%的结果分布在距离平均值1个标准差之内的范围：𝑃(𝜇−𝜎<𝑋<𝜇+𝜎)=0.683
2）95%的结果分布在距离平均值2个标准差之内的范围：𝑃(𝜇−2𝜎<𝑋<𝜇+2𝜎)=0.954
2）99%的结果分布在距离平均值3个标准差之内的范围：𝑃(𝜇−3𝜎<𝑋<𝜇+3𝜎)=0.997
在这里插入图片描述