《计算机视觉》读书笔记(一)第2章

第2章 概率概述

2.1 随机变量

  1. 随机变量 x x x 表示一个不确定的数量,可以是连续或者离散的
  2. 概率分布 P r ( x ) Pr(x) Pr(x)
  3. 离散变量的概率分布可以用直方图Hinton图表示,每个结果有一个正概率,概率之和为1
  4. 连续变量的概率分布可以用概率密度函数(PDF)来表示,概率密度表示随机变量的取该值的相对可能性,可以取任意正值,然而,PDF的积分总是1

2.2 联合概率

  1. x x x y y y 的联合概率分布表示记作 P r ( x , y ) Pr(x,y) Pr(x,y),逗号可以理解为“和”,所有结果的概率之和总是1

2.3 边缘化

1.如果 x x x y y y 连续,并且已知 P r ( x , y ) Pr(x,y) Pr(x,y),那么
P r ( x ) = ∫ P r ( x , y ) d y Pr(x)=\int Pr(x,y)\text{d}y Pr(x)=Pr(x,y)dy
P r ( y ) = ∫ P r ( x , y ) d x Pr(y)=\int Pr(x,y)\text{d}x Pr(y)=Pr(x,y)dx
2. 已知 P r ( x , y ) Pr(x,y) Pr(x,y),求 P r ( x ) Pr(x) Pr(x) P r ( y ) Pr(y) Pr(y) 称为边缘分布,其他变量的积分/求和过程称为边缘化
3. 计算概率分布 P r ( x ) Pr(x) Pr(x) 的过程可以解释为计算 x x x 的概率分布且忽略(或不考虑) y y y 的值

2.4 条件概率

  1. 给定 y y y y ∗ y^* y x x x 的条件概率记作 P r ( x ∣ y = y ∗ ) Pr(x|y=y^*) Pr(xy=y),“|”可以理解为“给定”
  2. 条件概率 P r ( x ∣ y = y ∗ ) Pr(x|y=y^*) Pr(xy=y) 可以由联合分布中的切片 P r ( x , y = y ∗ ) Pr(x,y=y^*) Pr(x,y=y) 计算出来,切片值表示当 y = y ∗ y=y^* y=y x x x 取不同值的相对概率。因为它们仅构成联合分布的一部分,总和不为1,所以计算条件概率分布,需要规范化切片中的总概率
    P r ( x ∣ y = y ∗ ) = P r ( x , y = y ∗ ) ∫ P r ( x , y = y ∗ ) = P r ( x , y = y ∗ ) P r ( y = y ∗ ) Pr(x|y=y^*)=\frac{Pr(x,y=y^*)}{\int{Pr(x,y=y^*)}}=\frac{Pr(x,y=y^*)}{Pr(y=y^*)} Pr(xy=y)=Pr(x,y=y)Pr(x,y=y)=Pr(y=y)Pr(x,y=y)
  3. 上式简化缩写为 P r ( x ∣ y ) = P r ( x , y ) P r ( y ) Pr(x|y)=\frac{Pr(x,y)}{Pr(y)} Pr(xy)=Pr(y)Pr(x,y)重新整理得:
    P r ( x , y ) = P r ( x ∣ y ) P r ( y ) Pr(x,y)=Pr(x|y)Pr(y) Pr(x,y)=Pr(xy)Pr(y)
  4. 多变量时,可以不断应用条件概率分布将联合概率分布分解为乘积形式:
    P r ( w , x , y , z ) = P r ( w , x , y ∣ z ) P r ( z ) Pr(w,x,y,z)=Pr(w,x,y|z)Pr(z) Pr(w,x,y,z)=Pr(w,x,yz)Pr(z)
    = P r ( w , x ∣ y , z ) P r ( y ∣ z ) P r ( z ) =Pr(w,x|y,z)Pr(y|z)Pr(z) =Pr(w,xy,z)Pr(yz)Pr(z)
    = P r ( w ∣ x , y , z ) P r ( x ∣ y , z ) P r ( y ∣ z ) P r ( z ) =Pr(w|x,y,z)Pr(x|y,z)Pr(y|z)Pr(z) =Pr(wx,y,z)Pr(xy,z)Pr(yz)Pr(z)
    P r ( w ∣ x , y , z ) Pr(w|x,y,z) Pr(wx,y,z)表示在给定 x , y , z x,y,z x,y,z 的情况下 w w w 的概率

2.5 贝叶斯公式

  1. 贝叶斯公式:
    P r ( y ∣ x ) = P r ( x ∣ y ) P r ( y ) P r ( x ) Pr(y|x)=\frac{Pr(x|y)Pr(y)}{Pr(x)} Pr(yx)=Pr(x)Pr(xy)Pr(y)
    = P r ( x ∣ y ) P r ( y ) ∫ P r ( x , y ) d y =\frac{Pr(x|y)Pr(y)}{\int Pr(x,y)\text{d}y} =Pr(x,y)dyPr(xy)Pr(y)
    = P r ( x ∣ y ) P r ( y ) ∫ P r ( x ∣ y ) P r ( y ) d y =\frac{Pr(x|y)Pr(y)}{\int Pr(x|y)Pr(y)\text{d}y} =Pr(xy)Pr(y)dyPr(xy)Pr(y)
  2. 后验概率: P r ( y ∣ x ) Pr(y|x) Pr(yx),代表给定 x x x y y y 的概率
    先验概率: P r ( y ) Pr(y) Pr(y),代表在考虑 x x x 之前 y y y 的概率
    似然性: P r ( x ∣ y ) Pr(x|y) Pr(xy)
    证据: P r ( x ) Pr(x) Pr(x)
  3. 在计算机视觉中,常用条件概率 P r ( x ∣ y ) Pr(x|y) Pr(xy) 表示变量 x x x y y y 的关系,然而我们主要感兴趣的是变量 y y y,因此,概率 P r ( y ∣ x ) Pr(y|x) Pr(yx) 就用贝叶斯公式来计算

2.6 独立性

  1. 如果从变量 x x x 不能得到变量 y y y 的任何信息(反之亦然),就称 x x x y y y 是独立的,可以表示为:
    P r ( x ∣ y ) = P r ( x ) Pr(x|y)=Pr(x) Pr(xy)=Pr(x)
    P r ( y ∣ x ) = P r ( y ) Pr(y|x)=Pr(y) Pr(yx)=Pr(y)
    代入条件概率公式中可得:
    P r ( x , y ) = P r ( x ∣ y ) P r ( y ) = P r ( x ) P r ( y ) Pr(x,y)=Pr(x|y)Pr(y)=Pr(x)Pr(y) Pr(x,y)=Pr(xy)Pr(y)=Pr(x)Pr(y)

2.7 期望

  1. 如果从概率分布中抽取大量样本,计算每个样本的函数,并求这些值的平均值,其结果就是期望。在离散及连续情况下,一个随机变量 x x x 的函数 f [ ⋅ ] f[\cdot] f[] 的期望值分别定义为
    E [ f [ x ] ] = ∑ x f [ x ] P r ( x ) E[f[x]]=\sum_x f[x]Pr(x) E[f[x]]=xf[x]Pr(x)
    E [ f [ x ] ] = ∫ f [ x ] P r ( x ) d x E[f[x]]=\int f[x]Pr(x)\text{d}x E[f[x]]=f[x]Pr(x)dx
  2. 特殊函数的期望
  3. 期望的四条性质
    E [ k ] = k E[k]=k E[k]=k
    E [ k f [ x ] ] = k E [ f [ x ] ] E[kf[x]]=kE[f[x]] E[kf[x]]=kE[f[x]]
    E [ f [ x ] + g [ x ] ] = E [ f [ x ] ] + E [ g [ x ] ] E[f[x]+g[x]]=E[f[x]]+E[g[x]] E[f[x]+g[x]]=E[f[x]]+E[g[x]]
    E [ f [ x ] g [ y ] ] = E [ f [ x ] ] E [ g [ y ] ] ( 若 x 和 y 独 立 ) E[f[x]g[y]]=E[f[x]]E[g[y]](若x和y独立) E[f[x]g[y]]=E[f[x]]E[g[y]]xy

备注

推荐研读一本关于概率的书籍,例如,Papoulis(1991)。从机器学习的视角学习概率,参考 Bishop(2006)第1章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值