文章目录
1. 贝叶斯公式
1.1 条件概率
- 概念
- "P(B|A):"
P(B|A):在事件A发生的基础上,事件B发生的概率
- "例如:"
题目:抛一枚硬币两次,观察正反情况。
A = "至少有一次出现正面"
B = "两次都出现同一面"
(1)求:P(B)
(2)已知A发生的条件下,事件B的概率。
解:
(1)
P(B) = 1/2*1/2(都为正) + 1/2*1/2(都为反) = 1/2
(2)
样本空间: Ω = {正正,正反,反反,反正}
A = {正正,正反,反正}
B = {正正,反反}
P(B|A) = 1/3
- 公式
P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)
- 推导
1. 定义法:
P
(
B
∣
A
)
=
P
(
A
B
)
P
(
A
)
P(B|A)=\frac{P(AB)}{P(A)}
P(B∣A)=P(A)P(AB)
2. 缩减样本空间法:
P ( B ∣ A ) = n ( A B ) n ( A ) = n ( A B ) n ( Ω ) n ( A ) n ( Ω ) = P ( A B ) P ( A ) P(B|A)=\frac{n(AB)}{n(A)}=\frac{\frac{n(AB)}{n(Ω)}}{\frac{n(A)}{n(Ω)}}=\frac{P(AB)}{P(A)} P(B∣A)=n(A)n(AB)=n(Ω)n(A)n(Ω)n(AB)=P(A)P(AB)
- 先验、后验概率
- "先验概率:"
1. P(A)
2. 通过以往的数据分析得到
- "后验概率:"
1. P(B|A)
2. 得到新的信息而重新加以修正的概率
- 概率乘法公式
P ( A B ) = P ( A ) P ( B ∣ A ) P(AB)=P(A)P(B|A) P(AB)=P(A)P(B∣A)
P ( A B ) = P ( B ) P ( A ∣ B ) P(AB)=P(B)P(A|B) P(AB)=P(B)P(A∣B)
P ( A B C ) = P ( A B ) P ( C ∣ A B ) = P ( A ) P ( B ∣ A ) P ( C ∣ A B ) P(ABC)=P(AB)P(C|AB)=P(A)P(B|A)P(C|AB) P(ABC)=P(AB)P(C∣AB)=P(A)P(B∣A)P(C∣AB)
1.2 全概率公式
- 条件
- "要用全概率公式,要满足的条件:"
完备事件组
- "完备事件组:"
1. 事件组并起来为Ω (Ω = B1 + B2 + B3)
2. 两两相交为空集
- 全概率要解决的问题
- "简答来说:"
1. 就是求事件A,在完备事件组Bi中的概率。
2. 相当于,A在不同完备事件Bi中,权重不同,
3. 算A在Bi的权重概率,再求和。
- "重要,非常重要:"
1. 不要死记公式
2. 不要死记公式
3. 不要死记公式
(有些时候复杂一点,A,B顺序也不一样,绕两下你就可能昏了)
- 示例
【图解】
【全概率----------->P(A)】
P ( A ) = P ( A B 1 ) + P ( A B 2 ) + P ( A B 3 ) P(A)=P(AB_1)+P(AB_2)+P(AB_3) P(A)=P(AB1)+P(AB2)+P(AB3)
【乘法公式】
P ( A B ) = P ( B ) P ( A ∣ B ) P(AB)=P(B)P(A|B) P(AB)=P(B)P(A∣B)
- 全概率公式
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^nP(B_i)P(A|B_i) P(A)=i=1∑nP(Bi)P(A∣Bi)
1.3 贝叶斯公式
- 公式
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)} P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
- 用实际来理解
【题目】
一个机器由A,B,C三种零件组成,组成的权重分别为:0.1,0.4,0.5。
A,B,C三种零件发生故障的概率分别为:0.7,0.1,0.2
"问:"
当有一个零件发生故障时,这个零件最有可能是哪一类?
【解法】
分别算A,B,C三类,比大小
**- "全概率:"
P(全) = (0.1*0.7)+(0.4*0.1)+(0.5*0.2)= 0.21
- "A"
P(A) = 0.1*0.7
- "B"
P(B) = 0.4*0.1
- "C"
P(C) = 0.5*0.2
- "选最大"
- 一般用公式:算每一类
P
(
B
1
∣
A
)
=
P
(
A
B
1
)
P
(
A
)
=
P
(
B
1
)
P
(
A
∣
B
1
)
P
(
A
)
P(B_1|A)=\frac{P(AB_1)}{P(A)}=\frac{P(B_1)P(A|B_1)}{P(A)}
P(B1∣A)=P(A)P(AB1)=P(A)P(B1)P(A∣B1)
P
(
A
)
:
为
全
概
率
P(A):为全概率
P(A):为全概率
2. 贝叶斯决策论
2.1 引言
- "为什么要知道贝叶斯公式?"
1. 通过数学公式,反过来理解如何进行分类
2. 贝叶斯公式,简答但重要
3. 基于概率论
- "NB算法:"
1. NB算法就是朴素贝叶斯分类算法
2. Naive Bayes
3. 朴素:后面会将,简单理解:特征条件独立(特征=维度=属性)
- "贝叶斯决策论:"
1. 这一节是基础,你要先知道,贝叶斯决策的思想
2. 必要的概率论知识(数学功底)
- "为什么学习贝叶斯决策论?"
1. 许多机器学习算法都与概率论相关,而概率论中有贝叶斯
2. 理解贝叶斯决策理论思想,就可以理解它如何分类
3. 贝叶斯决策论是本质
- "这一节的目的:"
1. 顾名思意,贝叶斯决策是基于概率来进行决策
2. 属于机器学习分支————统计机器学习
3. 本节目的是:知道贝叶斯决策的思路,思想,通过逐点推导,让你知道它到底基于什么,⽬的⼜是什么。
2.2 基本思想
- "贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:"
★已知类条件概率密度参数表达式和先验概率
★利用贝叶斯公式转换成后验概率
★根据后验概率大小进行决策分类
2.3 贝叶斯决策论
2.3.1 决策过程/思路
- 一、期望损失
【定义】
假设有 N 种可能的类别标记,即 y = {Cl C2 ,… CN} ,λij 是将一个真实标记为 Cj 的样本误分类为 Ci 所产生的损失。
基于后验概率 P(Ci|x) 可获得将样本 x 分类为 Ci 所产生的期望损失(expected loss) ,
即在样本 x 上的"条件风险" (conditional risk)
"注:"
决策论中将"期望损失"称为"风险" (risk)
【公式】
R ( C i ∣ x ) = ∑ j = 1 N λ i j P ( C j ∣ x ) R(C_i|x)=\sum_{j=1}^N\lambda_{ij}P(C_j|x) R(Ci∣x)=j=1∑NλijP(Cj∣x)
- 二、总体风险
R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=E_x[R(h(x)|x)] R(h)=Ex[R(h(x)∣x)]
- 三、贝叶斯最优分类器
h ∗ ( x ) = a r g m i n C ∈ y R ( C ∣ x ) h^*(x)=arg\ min_{C\in y}\ R(C|x) h∗(x)=arg minC∈y R(C∣x)
- 四、分类器的精度
A c c u r a c y = 1 − R ( h ∗ ) Accuracy = 1-R(h^*) Accuracy=1−R(h∗)
R ( h ∗ ) 总 体 风 险 称 为 " 贝 叶 斯 风 险 ( B a y e s r i s k ) " R(h^*)总体风险称为"贝叶斯风险(Bayes risk)" R(h∗)总体风险称为"贝叶斯风险(Bayesrisk)"
- ★★★五、最小化分类错误率的贝叶斯最优分类器
【误判损失】
λ i j = { 0 i f i = j 1 o t h e r w i s e \lambda_{ij} = \left\{ \begin{array}{lr} 0 & if\ \ \ i=j\\[6pt] 1 & otherwise \end{array} \right. λij={01if i=jotherwise
【条件风险】
R
(
C
∣
x
)
=
1
−
P
(
C
∣
x
)
R(C|x)=1-P(C|x)
R(C∣x)=1−P(C∣x)
【最小化分类错误率的贝叶斯最优分类器】
h ∗ ( x ) = a r g m i n C ∈ y P ( C ∣ x ) h^*(x)=arg\ min_{C\in y}\ P(C|x) h∗(x)=arg minC∈y P(C∣x)
2.3.2 求后验概率
- 引言
- 欲使用贝叶斯判定准则来最小化决策风险,
- 首先要获得后验概率 P(C|x).
- 然而,在现实任务中这通常难以直接获得.
- 从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(C|x)
- P(C|x)
P ( C ∣ x ) = P ( C ) P ( x ∣ C ) P ( x ) P(C|x)=\frac{P(C)P(x|C)}{P(x)} P(C∣x)=P(x)P(C)P(x∣C)
- "分类思想:"
1. 通过训练集,计算先验概率P(C)。(就是样本空间中各类样本所占的比例)
2. P(x|C):得到新的信息而重新加以修正的概率
(样本x 相对于类标记 C 的类条件概率,或称为"似然" (likelihood))
3. 总之,就是通过训练集,求得P(C),P(x|C)
4. 所以有方法:极大似然估计
3. 极大似然估计
3.1 引言
- "概率模型的训练就是参数估计的过程:"
估计"类条件概率"的一种常用"策略"是先假定其具有某种确定的"概率分布形式",
再基于训练样本对"概率分布的参数"进行估计.
具体地,记关于类别 C 的类条件概率为 P(x|C), 假设 P(x|C) 具有确定的形式
并且被参数向量 θc 唯一确定,则我们的任务就是利用训练集 D 估计参数 θc .为明确
起见,我们将 P(x|C) 记为 P(x|θc).
- "基于频率主义的极大似然估计:"
1. 事实上,概率模型的训练过程就是参数估计(parameter estimation) 过程.
2. 对于"参数估计",统计学界的两个学派分别提供了不同的解决方案:
(1)频率主义学派(Frequentist) 认为参数虽然未知,但却是客观存在的固定值,因此,可通过优
化似然函数等准则来确定参数值;
(2)贝叶斯学派(Bayesian) 则认为参数是未观察到的随机变量?其本身也可有分布,因此,可假定
参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布.
3. 本节介绍源自频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称 MLE) ,
这是根据数据采样来估计概率分布参数的经典方法.
3.2 似然公式
P ( D C ∣ θ C ) = ∏ x ∈ D C P ( x ∣ θ C ) P(D_C|\theta_C)=\prod_{x\in D_C}P(x|\theta_C) P(DC∣θC)=x∈DC∏P(x∣θC)
- "P(Dc|θc)"
表示参数 θc 对于数据集 Dc 的似然
- "Dc"
表示训练集 D 中第 c 类样本组成的集合
- "极大似然估计:"
极大似然估计是试图在 θc 所有可能的取值中,找到一个能使数据出现的"可能性"最大的值.
- "注意:"
1. 连乘操作易造成下溢
2. 通常使用"对数似然(log-likelihood)"
3.3 对数似然公式
- 对数似然公式
L L ( θ C ) − l o g P ( D C ∣ θ C ) = ∑ x ∈ D C l o g P ( x ∣ θ C ) LL(\theta_C)-log\ P(D_C|\theta_C)=\sum_{x\in D_C}log\ P(x|\theta_C) LL(θC)−log P(DC∣θC)=x∈DC∑log P(x∣θC)
- 参数 θ C \theta_C θC的极大似然估计 θ C ^ \hat{\theta_C} θC^
θ C ^ = a r g m a x θ C L L ( θ C ) \hat{\theta_C}=arg\ max_{\theta_C}\ LL(\theta_C) θC^=arg maxθC LL(θC)