概率密度函数
概率
定义区间
[
a
,
b
]
[a,b]
[a,b]上的随机变量,服从某个概率密度函数
p
(
x
)
p(x)
p(x),那么这个非负函数必须满足
∫
a
b
p
(
x
)
d
x
=
1
\int_a^bp(x)dx=1
∫abp(x)dx=1这个积分等于1的条件,实际上是为了满足全概率公式。
注意公式中的
p
(
x
)
p(x)
p(x)是概率密度(probability density),而不是概率(probability)。
概率指的是密度函数在区间上的积分面积。如计算 x x x 落在区间 [ c , d ] [c, d] [c,d] 上的概率 P r ( c ≤ x ≤ d ) Pr(c\leq x\leq d) Pr(c≤x≤d),即用密度函数在该区间上积分,公式如下 P r ( c ≤ x ≤ d ) = ∫ c d p ( x ) d x Pr(c\leq x \leq d)=\int_c^dp(x)dx Pr(c≤x≤d)=∫cdp(x)dx
条件概率
假设
p
(
x
∣
y
)
p(x|y)
p(x∣y) 表示自变量
x
∈
[
a
,
b
]
x \in [a, b]
x∈[a,b]在条件
y
∈
[
r
,
s
]
y\in [r, s]
y∈[r,s]下的概率密度函数,那么它满足:
(
∀
y
)
∫
a
b
p
(
x
∣
y
)
d
x
=
1
(\forall y )\int_a^bp(x|y)dx = 1
(∀y)∫abp(x∣y)dx=1
贝叶斯公式及推断
联合概率密度(joint probability densities)分解成一个条件概率密度和一个非条件概率密度的乘积
p
(
x
,
y
)
=
p
(
x
∣
y
)
p
(
y
)
=
p
(
y
∣
x
)
p
(
x
)
p(x,y)=p(x|y)p(y)=p(y|x)p(x)
p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)
整理得,贝叶斯公式(Bayes’ rules)
p
(
x
∣
y
)
=
p
(
y
∣
x
)
p
(
x
)
p
(
y
)
p(x|y)=\frac{p(y|x)p(x)}{p(y)}
p(x∣y)=p(y)p(y∣x)p(x)
如果我们有了状态的先验(prior)概率密度函数
p
(
x
)
p(x)
p(x) 和传感器模型
p
(
y
∣
x
)
p(y|x)
p(y∣x),就可以推断(infer)
状态的后验(posterior)概率密度函数。为此,将分母展开
p
(
x
∣
y
)
=
p
(
y
∣
x
)
p
(
x
)
∫
p
(
y
∣
x
)
p
(
x
)
d
x
p(x|y) = \frac{p(y|x)p(x)}{\int p(y|x)p(x)dx}
p(x∣y)=∫p(y∣x)p(x)dxp(y∣x)p(x)
可以通过如下边缘化(marginalization)方式计算分母
p
(
y
)
p(y)
p(y):
p
(
y
)
=
p
(
y
)
∫
p
(
x
∣
y
)
d
x
⏟
1
=
∫
p
(
x
∣
y
)
p
(
y
)
d
x
=
∫
p
(
x
,
y
)
d
x
=
∫
p
(
y
∣
x
)
p
(
x
)
d
x
\begin{aligned}p(y) &= p(y)\underbrace{\int p(x|y)dx}_{1}=\int p(x|y)p(y)dx\\ &=\int p(x, y)dx =\int p(y|x)p(x)dx\end{aligned}
p(y)=p(y)1
∫p(x∣y)dx=∫p(x∣y)p(y)dx=∫p(x,y)dx=∫p(y∣x)p(x)dx
但是在非线性情况下,这个计算代价很大。
在贝叶斯推断中,
p
(
x
)
p(x)
p(x) 称为先验密度,
p
(
x
∣
y
)
p(x|y)
p(x∣y) 称为后验密度。因此,所有的先验信息被包含
在了
p
(
x
)
p(x)
p(x) 中。同样地,所有的后验信息被包含在
p
(
x
∣
y
)
p(x|y)
p(x∣y) 中。
Q \mathbf{Q} Q: 正常对于标量的公式中的平方,矢量就变成了矢量乘以转置,这是为什么?
A \mathbf{A} A: 这是因为在处理矢量或矩阵时,我们希望保持代数运算的一致性和可扩展性。在标量的情况下,平方表示对数值本身的乘积。但是在矢量或矩阵的情况下,我们希望平方具有相似的性质,这就需要引入矩阵的乘法规则。
当我们对矢量或矩阵进行乘法时,我们实际上在执行一种线性组合操作,其中每个元素都与其他元素相乘并相加。因此,在矩阵 A A A 与其转置 A T A^T AT 相乘时,相当于每个矩阵元素进行相乘并求和,这保持了代数操作的一致性。