贝叶斯学习
常用概率公式
乘法规则
-
P
(
A
B
)
=
P
(
B
)
P
(
A
∣
B
)
P(AB)=P(B)P(A|B)
P(AB)=P(B)P(A∣B)
= P ( A ) P ( B ∣ A ) =P(A)P(B|A) =P(A)P(B∣A)
= P ( B A ) =P(BA) =P(BA)
全概率公式
- 若事件 A i A_i Ai 互斥,且 ∑ i = 1 n P ( A i ) = 1 \sum_{i=1}^nP(A_i)=1 ∑i=1nP(Ai)=1
- 则
P
(
B
)
=
∑
i
=
1
n
P
(
B
∣
A
i
)
P
(
A
i
)
P(B)=\sum_{i=1}^nP(B|A_i)P(A_i)
P(B)=∑i=1nP(B∣Ai)P(Ai)
贝叶斯定理
先验概率
- P ( A ) P(A) P(A) : A A A 的先验概率
- P ( B ) P(B) P(B) : B B B 的先验概率
条件概率
- P ( A ∣ B ) P(A|B) P(A∣B) : B B B 成立时 A A A 的概率
后验概率
- P ( B ∣ A ) P(B|A) P(B∣A) : A A A 成立时 B B B 的概率
贝叶斯定理
-
P
(
B
∣
A
)
=
P
(
A
∣
B
)
P
(
B
)
P
(
A
)
P(B|A)=\frac{P(A|B)P(B)}{P(A)}
P(B∣A)=P(A)P(A∣B)P(B)
定义变量
- 样本 x x x 包含 d d d 个属性,即 x = { x 1 , x 2 , . . . , x d } x=\{x_1,x_2,...,x_d\} x={x1,x2,...,xd}
- 存在 N N N 种可能的类别标记, Y = { c 1 , c 2 , . . . , c N } Y=\{c_1,c_2,...,c_N\} Y={c1,c2,...,cN}
- 先验概率
P
(
c
i
)
P(c_i)
P(ci),条件概率
P
(
x
∣
c
i
)
P(x|c_i)
P(x∣ci),后验概率
P
(
c
i
∣
x
)
P(c_i|x)
P(ci∣x)
风险
- 风险 = 原本为 c j c_j cj 的样本误分类为 c i c_i ci 产生的期望损失
- 期望损失 = 概率 × 损失
- 即风险 R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x) R(ci∣x)=∑j=1NλijP(cj∣x)
-
λ
i
j
=
0
i
f
i
=
j
\lambda_{ij}=0 \ \ \ \ \ if \ i=j
λij=0 if i=j
1 e l s e 1 \ \ \ \ \ else 1 else - 总体风险: R ( h ) = E x ( R ( c ∣ x ) ) R(h)=\mathbb{E}_x(R(c|x)) R(h)=Ex(R(c∣x))
- 并且
R
(
c
∣
x
)
=
1
−
P
(
c
∣
x
)
R(c|x)=1-P(c|x)
R(c∣x)=1−P(c∣x)
贝叶斯最优分类器
为最小化总体风险,只需在每个样本上选择能够使条件风险最小的类别标记
-
h
∗
(
x
)
=
arg
min
c
∈
y
R
(
c
∣
x
)
h^*(x)=\arg\min_{c\in y}R(c|x)
h∗(x)=argminc∈yR(c∣x)
= arg max c ∈ y P ( c ∣ x ) =\arg\max_{c\in y}P(c|x) =argmaxc∈yP(c∣x) -
h
∗
h^*
h∗ 称为贝叶斯最优分类器
朴素贝叶斯分类器
朴素贝叶斯分类器假设每个属性独立的对分类结果发生影响
- P ( c ∣ x ) = P ( c ) P ( x ∣ c ) P ( x ) = P ( c ) P ( x ) Π j = 1 d P ( x j ∣ c ) P(c|x)=\frac{P(c)P(x|c)}{P(x)}=\frac{P(c)}{P(x)}\Pi_{j=1}^dP(x_j|c) P(c∣x)=P(x)P(c)P(x∣c)=P(x)P(c)Πj=1dP(xj∣c)
- 由于对于所有的类别 P ( x ) P(x) P(x) 相同,所以:
-
h
N
B
(
x
)
=
arg
max
c
∈
Y
P
(
c
)
Π
j
=
1
d
P
(
x
j
∣
c
)
h^{NB}(x)=\arg\max_{c\in Y}P(c)\Pi_{j=1}^dP(x_j|c)
hNB(x)=argmaxc∈YP(c)Πj=1dP(xj∣c)
极大似然估计 (MLE估计)
核心思想
- 样本集 D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} D={x1,x2,...,xN} 固定且已知
- 待估计的模型参数 θ \theta θ 固定且未知
- 输入:样本集 D D D 和 模型参数 θ \theta θ
- 输出:似然函数
- 在模型参数 θ \theta θ 所有可能的取值中
- 找到一个能使似然函数取得最大值的参数值
公式
- 参数 θ \theta θ 对于数据集 D D D 的似然:
- L ( θ ) ≜ p ( D ∣ θ ) = Π i = 1 N p ( x i ∣ θ ) L(\theta)\triangleq p(D|\theta)=\Pi_{i=1}^Np(x_i|\theta) L(θ)≜p(D∣θ)=Πi=1Np(xi∣θ)
- p ( D ∣ θ ) p(D|\theta) p(D∣θ) 为联合密度函数
对数似然公式
- L L ( θ ) = log L ( θ ) = ∑ i = 1 N log p ( x i ∣ θ ) LL(\theta)=\log L(\theta)=\sum_{i=1}^N\log p(x_i|\theta) LL(θ)=logL(θ)=∑i=1Nlogp(xi∣θ)
- θ ^ = arg max θ L L ( θ ) \hat{\theta}=\arg\max_{\theta}LL(\theta) θ^=argmaxθLL(θ)
求解似然函数
- 若似然函数连续、可微
- 则解为:
d
(
L
(
θ
)
)
d
θ
=
0
\frac{\mathrm{d}(L(\theta))}{\mathrm{d}\theta}=0
dθd(L(θ))=0 或
d
(
L
L
(
θ
)
)
d
θ
=
0
\frac{\mathrm{d}(LL(\theta))}{\mathrm{d}\theta}=0
dθd(LL(θ))=0 的解
最大后验概率估计 (MAP估计)
核心思想
- 样本集 D D D 固定且已知
- 待估计的模型参数 μ \mu μ 固定且未知
- 输入:样本集 D D D 和 模型参数 μ \mu μ
- 输出:似然函数
- 在模型参数 μ \mu μ 所有可能的取值中
- 找到一个能使似然函数取得最大值,并且 μ \mu μ 的先验概率最大的的参数值
公式
-
μ
^
M
A
P
=
arg
max
μ
p
(
μ
∣
D
)
\hat{\mu}_{MAP}=\arg\max_\mu p(\mu|D)
μ^MAP=argmaxμp(μ∣D)
= arg max μ p ( D ∣ μ ) p ( μ ) p ( D ) =\arg\max_\mu \frac{p(D|\mu)p(\mu)}{p(D)} =argmaxμp(D)p(D∣μ)p(μ)
= arg max μ p ( D ∣ μ ) p ( μ ) =\arg\max_\mu p(D|\mu)p(\mu) =argmaxμp(D∣μ)p(μ)
求解MAP函数
- 若MAP函数连续、可微
- 则解为:目标函数=0 的解