概率基础
本章节介绍深度学习中的概率基础知识,包括基本概念、概率分布和统计推断。
1. 概率基础
1.1 基本概念
- 随机变量:可以取不同值的变量,其值由随机试验的结果决定
- 概率分布:描述随机变量取值的可能性分布
- 条件概率:在给定某事件发生的条件下,另一事件发生的概率
概率基础
本章节介绍深度学习中的概率基础知识,包括基本概念、概率分布和统计推断。
1. 概率基础
1.1 基本概念
概率公理
概率论的基础由以下三条公理构成,这些公理为所有概率计算提供了数学基础:
-
非负性:
P ( A ) ≥ 0 P(A) \geq 0 P(A)≥0
任何事件的概率都是非负的。例如,抛硬币出现正面的概率不可能是负数。 -
规范性:
P ( Ω ) = 1 P(\Omega) = 1 P(Ω)=1
所有可能事件的概率总和为1。例如,抛硬币(正面或反面)的概率总和必然为1。 -
可列可加性:
P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) (当事件 A i 互斥时) P\left(\bigcup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i) \quad \text{(当事件 } A_i \text{ 互斥时)} P(i=1⋃∞Ai)=i=1∑∞P(Ai)(当事件 Ai 互斥时)
互斥事件(即不同时发生的事件)的并集概率等于各事件概率之和。例如,抛一次骰子出现1点或2点的概率是 1 / 6 + 1 / 6 = 1 / 3 1/6 + 1/6 = 1/3 1/6+1/6=1/3。
# 示例:计算骰子概率
dice_outcomes = [1, 2, 3, 4, 5, 6]
prob_even = 3 / 6 # 偶数事件(2,4,6)的概率
print(f"骰子出现偶数的概率: {prob_even}") # 输出 0.5(符合规范性)
1.2 联合概率与条件概率
联合概率
联合概率 P ( X = x , Y = y ) P(X=x, Y=y) P(X=x,Y=y) 表示两个事件同时发生的概率。例如,同时抛硬币和骰子,硬币为正面且骰子为3的概率。
条件概率
条件概率
P
(
Y
=
y
∣
X
=
x
)
P(Y=y | X=x)
P(Y=y∣X=x) 表示在已知事件
X
=
x
X=x
X=x 发生的条件下,事件
Y
=
y
Y=y
Y=y 发生的概率。其计算公式为:
P
(
Y
=
y
∣
X
=
x
)
=
P
(
X
=
x
,
Y
=
y
)
P
(
X
=
x
)
P(Y=y | X=x) = \frac{P(X=x, Y=y)}{P(X=x)}
P(Y=y∣X=x)=P(X=x)P(X=x,Y=y)
示例:在天气预测中,已知今天下雨的条件下,明天下雨的概率。
# 联合概率表(X: 天气,Y: 是否带伞)
# 带伞(Y=0) 不带伞(Y=1)
# 晴天(X=0) 0.1 0.5
# 雨天(X=1) 0.3 0.1
import matplotlib.pyplot as plt
import seaborn as sns
import torch
joint_probs = torch.tensor([[0.1, 0.5], [0.3, 0.1]])
# 计算边缘概率 P(X=雨天)
p_rain = joint_probs[1, :].sum() # 0.3 + 0.1 = 0.4
# 计算条件概率 P(带伞 | 雨天)
p_umbrella_given_rain = joint_probs[1, 0] / p_rain # 0.3 / 0.4 = 0.75
print(f"雨天带伞的条件概率: {p_umbrella_given_rain:.2f}")
plt.figure(figsize=(8,6))
sns.heatmap(joint_probs.numpy(),
annot=True,
fmt=".2f",
cmap="YlGnBu",
xticklabels=['Y=0', 'Y=1'],
yticklabels=['X=0', 'X=1'])
plt.title("联合概率分布热力图 P(X,Y)", fontsize=14)
plt.xlabel("Y变量", fontsize=12)
plt.ylabel("X变量", fontsize=12)
plt.show()
2. 概率分布
2.1 离散分布
2.1.1 伯努利分布
定义:描述单次二元试验(成功/失败)的概率分布。
概率质量函数(PMF):
P
(
X
=
k
)
=
{
p
if
k
=
1
(
成功
)
1
−
p
if
k
=
0
(
失败
)
P(X=k) = \begin{cases} p & \text{if } k=1 \quad (\text{成功}) \\ 1-p & \text{if } k=0 \quad (\text{失败}) \end{cases}
P(X=k)={p1−pif k=1(成功)if k=0(失败)
参数:
- p p p:成功的概率(如抛硬币正面的概率)
p = 0.6 # 成功概率为60%
bern_dist = torch.distributions.Bernoulli(probs=p)
samples = bern_dist.sample((1000,)) # 生成1000次试验样本
print(f"理论成功概率: {p}")
print(f"实际样本成功比例: {samples.float().mean():.2f}") # 约0.6
2.1.2 二项分布
定义:描述
n
n
n 次独立伯努利试验中成功次数的分布。
PMF:
P
(
X
=
k
)
=
C
(
n
,
k
)
p
k
(
1
−
p
)
n
−
k
P(X=k) = C(n, k) p^k (1-p)^{n-k}
P(X=k)=C(n,k)pk(1−p)n−k
其中
C
(
n
,
k
)
=
n
!
k
!
(
n
−
k
)
!
C(n, k) = \frac{n!}{k!(n-k)!}
C(n,k)=k!(n−k)!n! 是组合数。
参数:
- n n n:试验次数
- p p p:单次成功的概率
应用场景:
- 抛10次硬币出现正面的次数
- 100件产品中的次品数量
n, p = 10, 0.3
binom_dist = torch.distributions.Binomial(n, probs=p)
k = 4 # 成功4次的概率
prob_k = binom_dist.log_prob(k).exp() # 计算P(X=4)
print(f"在{n}次试验中成功{k}次的概率: {prob_k:.3f}") # 约0.200
2.2 连续分布
2.2.1 正态分布(高斯分布)
定义:自然界中大量现象服从的分布(如身高、测量误差)。
概率密度函数(PDF):
f
(
x
)
=
1
σ
2
π
e
−
(
x
−
μ
)
2
2
σ
2
f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}
f(x)=σ2π1e−2σ2(x−μ)2
参数:
- μ \mu μ:均值(分布中心)
- σ \sigma σ:标准差(分布宽度)
特性:
- 68% 的数据落在 [ μ − σ , μ + σ ] [\mu-\sigma, \mu+\sigma] [μ−σ,μ+σ]
- 95% 的数据落在 [ μ − 2 σ , μ + 2 σ ] [\mu-2\sigma, \mu+2\sigma] [μ−2σ,μ+2σ]
mu, sigma = 0.0, 1.0
normal_dist = torch.distributions.Normal(mu, sigma)
# 计算区间概率
x1, x2 = -1, 1
prob = normal_dist.cdf(torch.tensor(x2)) - normal_dist.cdf(torch.tensor(x1))
print(f"数据在[{x1}, {x2}]的概率: {prob:.3f}") # 输出约0.682
2.2.2 均匀分布
定义:在区间
[
a
,
b
]
[a, b]
[a,b] 内所有值出现的概率相等。
PDF:
f
(
x
)
=
{
1
b
−
a
a
≤
x
≤
b
0
其他
f(x) = \begin{cases} \frac{1}{b-a} & a \leq x \leq b \\ 0 & \text{其他} \end{cases}
f(x)={b−a10a≤x≤b其他
应用场景:
- 随机数生成
- 无先验知识时的默认分布
a, b = 2.0, 5.0
uniform_dist = torch.distributions.Uniform(a, b)
# 计算概率密度在区间内的值
x = 3.5
pdf_value = torch.exp(uniform_dist.log_prob(x))
print(f"x=3.5处的概率密度: {pdf_value:.3f}") # 1/(5-2) ≈ 0.333s
3. 统计推断
3.1 最大似然估计(MLE)
核心思想:选择使观测数据出现概率最大的参数。
数学形式:
θ
^
MLE
=
arg
max
θ
∏
i
=
1
n
P
(
x
i
∣
θ
)
\hat{\theta}_{\text{MLE}} = \arg\max_\theta \prod_{i=1}^n P(x_i | \theta)
θ^MLE=argθmaxi=1∏nP(xi∣θ)
示例:估计正态分布的均值和方差
假设数据
{
x
1
,
.
.
.
,
x
n
}
\{x_1, ..., x_n\}
{x1,...,xn} 服从
N
(
μ
,
σ
2
)
N(\mu, \sigma^2)
N(μ,σ2),MLE估计为:
μ
^
=
1
n
∑
i
=
1
n
x
i
,
σ
^
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
^
)
2
\hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \hat{\mu})^2
μ^=n1i=1∑nxi,σ^2=n1i=1∑n(xi−μ^)2
# 生成正态分布样本
true_mu, true_sigma = 5.0, 2.0
data = torch.normal(true_mu, true_sigma, size=(1000,))
# MLE估计参数
mu_hat = data.mean()
sigma_hat = torch.sqrt(torch.mean((data - mu_hat)**2)) # 注意这是有偏估计
print(f"真实参数: μ={true_mu}, σ={true_sigma}")
print(f"MLE估计: μ̂={mu_hat:.3f}, σ̂={sigma_hat:.3f}") # 结果接近真实值
3.2 假设检验(t检验)
目的:判断两组数据的均值是否有显著差异。
t统计量公式:
t
=
x
ˉ
1
−
x
ˉ
2
s
1
2
n
1
+
s
2
2
n
2
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
t=n1s12+n2s22xˉ1−xˉ2
其中
x
ˉ
i
\bar{x}_i
xˉi 为样本均值,
s
i
2
s_i^2
si2 为样本方差,
n
i
n_i
ni 为样本量。
结果解读:
- p值:若 p < 0.05,拒绝原假设(认为均值不同)
- t值:绝对值越大,差异越显著
# 生成两组数据(假设是模型A和模型B的准确率)
model_A = torch.normal(0.85, 0.1, (100,)) # 均值85%,标准差10%
model_B = torch.normal(0.88, 0.1, (100,)) # 均值88%
# 独立双样本t检验
from scipy.stats import ttest_ind
t_stat, p_value = ttest_ind(model_A.numpy(), model_B.numpy())
print(f"t统计量: {t_stat:.3f}")
print(f"p值: {p_value:.3f}")
if p_value < 0.05:
print("结论: 模型B的准确率显著高于模型A")
else:
print("结论: 无显著差异")
4. 深度学习中的概率应用
4.1 交叉熵损失
数学定义:衡量预测分布
q
q
q 与真实分布
p
p
p 的差异:
H
(
p
,
q
)
=
−
∑
i
=
1
C
p
i
log
q
i
H(p, q) = -\sum_{i=1}^C p_i \log q_i
H(p,q)=−i=1∑Cpilogqi
在分类任务中的应用:
- 真实分布 p p p 是 one-hot 编码(如标签 [0, 1, 0])
- 预测分布 q q q 是 softmax 输出(如 [0.2, 0.7, 0.1])
# 三分类任务示例
logits = torch.tensor([[1.2, 3.0, 0.5], [0.5, 2.0, 1.5]]) # 模型原始输出
targets = torch.tensor([1, 2]) # 真实类别索引
# 计算交叉熵损失
loss = F.cross_entropy(logits, targets)
print(f"交叉熵损失: {loss:.3f}") # 输出约0.551
# 手动验证
probs = F.softmax(logits, dim=1) # 转换为概率
true_probs = torch.zeros_like(probs).scatter(1, targets.unsqueeze(1), 1.0)
manual_loss = - (true_probs * torch.log(probs)).sum(dim=1).mean()
print(f"手动计算损失: {manual_loss:.3f}") # 应与上述结果一致
4.2 变分自编码器(VAE)
核心思想:通过概率模型学习数据的潜在表示。
变分下界(ELBO):
L
=
E
q
(
z
∣
x
)
[
log
p
(
x
∣
z
)
]
−
KL
(
q
(
z
∣
x
)
∥
p
(
z
)
)
\mathcal{L} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - \text{KL}(q(z|x) \| p(z))
L=Eq(z∣x)[logp(x∣z)]−KL(q(z∣x)∥p(z))
- 第一项:重构损失,要求解码后的数据与输入相似
- 第二项:KL散度,约束潜在变量分布接近先验分布(通常为标准正态)
class VAE(nn.Module):
def __init__(self, input_dim=784, latent_dim=20):
super().__init__()
# 编码器:输入 -> 潜在分布的参数 (μ, logσ²)
self.encoder = nn.Linear(input_dim, latent_dim*2)
# 解码器:潜在变量 -> 重构数据
self.decoder = nn.Sequential(
nn.Linear(latent_dim, 512),
nn.ReLU(),
nn.Linear(512, input_dim),
nn.Sigmoid()
)
def reparameterize(self, mu, logvar):
std = torch.exp(0.5*logvar) # 标准差
eps = torch.randn_like(std) # 随机噪声
return mu + eps * std # 重参数化技巧
def forward(self, x):
# 编码
h = self.encoder(x)
mu, logvar = h.chunk(2, dim=1)
# 采样潜在变量
z = self.reparameterize(mu, logvar)
# 解码重构
x_recon = self.decoder(z)
return x_recon, mu, logvar
# 损失函数计算
def vae_loss(recon_x, x, mu, logvar):
BCE = F.binary_cross_entropy(recon_x, x, reduction='sum') # 重构损失
KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp()) # KL散度
return BCE + KLD
import numpy as np
import torch
import matplotlib.pyplot as plt
# 模拟抛硬币实验
num_flips = 1000
flips = np.random.choice(['正面', '反面'], size=num_flips)
# 计算概率
prob_head = np.mean(flips == '正面')
print(f"正面概率: {prob_head:.3f}")
本章介绍了概率分布和统计推断的基本概念,以及在深度学习中的应用。通过这些内容,我们可以更好地理解和利用概率模型,为深度学习模型的训练和评估提供基础。