机器学习-贝叶斯学习(BayesLernen)

最新推荐文章于 2023-10-08 11:24:59 发布

尤曦

最新推荐文章于 2023-10-08 11:24:59 发布

阅读量2.9k

点赞数 1

分类专栏： ML 文章标签：机器学习贝叶斯 MAP 优化 naive

ML 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

大纲

1.动机
2.贝叶斯理论
3.MAP-/ML假设
4.优化的贝叶斯分类器
5.幼稚的贝叶斯分类器
6.例子
7.贝叶斯网络
8.EM算法
9.总结

动机

什么是贝叶斯学习

他是一种统计学习方法，他具有以下的特点：
1.结合已有的信息(前验概率)和观察到的信息
2.通过贝叶斯可以获得对应观察的假设，以及这个假设成立对应的概率
(Hypothesen können mit einer Wahrscheinlichkeit angegeben werden)
3.每个例子都可以提高或者降低一个存在的例子的可靠性(无一例外)
(Jedes Beispiel kann die Glaubwürdigkeit einer bestehenden Hypothese erhöhen oder verringen: $\rightarrow$ kein Ausschluss bestehender Hypothesen)
4.可以通过同时评价多个可能的假设，来获得更加精确的结果

动机

1.他是一种很好得学习方法
2.他也可以作为其他学习方法的组成部分

实际应用时可能的难点

1.需要很多初始知识(像前验概率啊什么的)
(Initiales Wissen über viele Wahrscheinlichkeiten notwendig.
Aber:oft Schätzung basierend auf Hintergrundwissen, vorhandenen Daten, etc. möglich)
2.优化的贝叶斯假设的计算量很大
(Erheblicher Rechenaufwand für optimale Bayes’sche Hypothese im allgemienen Fall
Linear mit Anzahl der möglichen Hypothesen
Aber:In speziellen Fällen deutliche Reduzierung des Rechenaufwand möglich)

贝叶斯理论

一般概率理论

P r o d u k t r e g e l : P (A \land B) = P (A | B) P (B) = P (B | A) P (A) S u m m e n r e g e l : P (A \lor B) = P (A) + P (B) - P (A \land B)

$Produktregel:P(A\land B)=P(A|B)P(B)=P(B|A)P(A)\\ Summenregel:P(A\lor B)=P(A)+P(B)-P(A\land B)$
针对互斥的事件

A1,...,An,∑ni=1P(Ai)=1 $A_1,...,A_n,\sum^n_{i=1}P(A_i)=1$ 有：

P (B) = \sum i = 1 n P (B | A i) P (A i)

$P(B)=\sum^n_{i=1}P(B|A_i)P(A_i)$

贝叶斯理论

P (h | D) = P ( D | h ) P ( h ) P ( D )

$P(h|D)=\frac{P(D|h)P(h)}{P(D)}$
P(h)表示先验概率(或叫边缘概率)，他与观察无关，表示假设空间中选中假设h的概率
P(D | h)表示条件概率，指当h成立时观察到D的概率
P(D)表示观察到事件D的概率，他与假设无关。根据求和定理，他是所有P(D|h)的和
P(h|D)表示后验概率
例子：医学诊断
被略

MAP(Maximum a posteriore Hypothese)假设与ML(Maximum Likelihood)假设

目标：根据观察到的事件D，从假设空间H中选出概率最大的假设。

h M A P = a r g m a x h \in H P (h | D) = a r g m a x h \in H P ( D | h ) P ( h ) P ( D ) B a y e s = a r g m a x h \in H P (D | h) P (h) P (D) = c o n s t

$h_{MAP}=arg \underset{h \in H}{max} P(h|D)\\ =arg \underset{h \in H}{max}\frac{P(D|h)P(h)}{P(D)}\ \ \ \ Bayes\\ =arg \underset{h \in H}{max} P(D|h)P(h)\ \ \ \ P(D)=const$
如果上式中每个假设出现的概率是相同的，那么我们就得到了相应的ML假设：

h M L = a r g m a x h i \in H P (D | h i)

$h_{ML}=arg \underset{h_i \in H}{max}P(D|h_i)$
例子：医学诊断
已知关于癌症的知识有：

P (K r e b s) = 0.008 P (\neg K r e b s) = 0.992 P (+ | K r e b s) = 0.98 P (- | K r e b s) = 0.02 P (+ | \neg K r e b s) = 0.03 P (- | \neg K r e b s) = 0.97

$P(Krebs)=0.008\ \ \ \ P(\lnot Krebs)=0.992\\ P(+|Krebs)=0.98\ \ \ \ P(-|Krebs)=0.02\\ P(+|\lnot Krebs)=0.03\ \ \ \ P(-|\lnot Krebs)=0.97$
根据MAP：

hMAP=argmaxh∈HP(D|h)P(h) $h_{MAP}=\underset{h \in H}{arg max} P(D|h)P(h)$ 对于一个检验报告为+的新的病人我们可以得到下面的结果：

P (+ | K r e b s) P (K r e b s) = 0.0078 P (- | K r e b s) P (K r e b s) = 0.0298

$P(+|Krebs)P(Krebs)=0.0078\\ P(-|Krebs)P(Krebs)=0.0298$
可以看出整个假设空间一共有两个假设，分别是1.患有癌症 2.没有癌症。根据MAP假设二是我们要得结果。（好吧，原来检测结构为正，也不能说明得了癌症的啊）

学习方法

暴力美学

1.计算每一个假设的后验概率
2.选出其中使后验概率最大的那个假设
//这就是计算而已啊，为什么叫学习呢？？是我弄错了吗？？学习的目的就是找出最优假设

概念学习(Konzeptlernen)

//这课件真得是一个人编的吗？？？
针对的问题是：
1.H是针对实例X的有限的假设空间
2.目标是找出目标假设c： $X \rightarrow$ {0,1}
// $X \rightarrow$ {0,1}表示理解不能，不应该是映射到D的吗？？？？因为是Konzept，所以对应的值域只有{0，1}，表示对应事物的存在与否。？？
3.确定的实例序列：X= <x1,...,xm> <script id="MathJax-Element-13" type="math/tex"> </script>
4.目标序列：D= <d1,...,dm> <script id="MathJax-Element-14" type="math/tex"> </script>
为了简化问题，我们进行以下假设：
1.训练数据没受到干扰，也就是说 $d_i=c(x_i)$
//训练数据不应该是X，D对吗？？为什么就是D了？？？？
2.c包含在假设空间H中
3.每个假设的先验概率相等
(Kein Grund a priori anzunehmen, dass irgendeiner Hypothese wahrscheinlicher ist als eine andere)
根据上面的问题设定，我们有：

P (D | h) = {10 i f h (x i) = d i, \forall d i \in D o t h e r P (h) = 1 | H |

$P(D|h) = \begin {cases} 1& if h(x_i)=d_i,\forall d_i \in D\\ 0&other \end{cases}\\ P(h) = \frac{1}{|H|}$
根据上述条件，我们可以得出对应的后验概率，分为两种情况：
1.

h(xi)=di $h(x_i)=d_i$ (konsistente Hypothesen)

P (h | D) = 1 * 1 | H | P ( D ) = 1 * 1 | H | | V S H , S | | H | = 1 | V S H , D |

$P(h|D)=\frac{1*\frac{1}{|H|}}{P(D)}=\frac{1*\frac{1}{|H|}}{\frac{|VS_{H,S}|}{|H|}}=\frac{1}{|VS_{H,D}|}$
2.other:

P (h | D) = 0 * P ( h ) P ( D ) = 0 由 上 可 得 ， 随 着 训 练 数 据 的 增 大 ， 对 应 的 成 立 的 假 设 应 该 不 断 减 少 。

$P(h|D)=\frac{0*P(h)}{P(D)}=0 由上可得，随着训练数据的增大，对应的成立的假设应该不断减少。$
其中

VSH,D $VS_{H,D}$ 为假设空间H中，符合条件的假设的数量
(Menge der h aus H, die konsistent mit D sind(Versionenraum von H??))
/*感觉上面就是要得全部了，下面还有一个定义
Definition:Ein lernverfahren ist ein konsistenter Lerner, wenn es eine Hypothese liefert, die keine Fehler auf den Trainingsdaten macht.
Unter obigen Voraussetzungen gibt jeder konsistente Lerne eine MAP-Hypothese aus
Methode um induktiven Bias auszudrücken???
*/

例子：学习实数方程

这里写图片描述
寻找的目标是：实数方程f
已知的是：受干扰的<script id="MathJax-Element-21" type="math/tex"> </script>对，也就是说：
1. $d_i=f(x_i)+e_i$
2. $e_i$ 是干扰项(随机变量)，他的取值和 $x_i$ 无关，他的分布符合中值为0的正太分布。
由上面的条件，我们可以得到 $h_{ML}$ 满足下面这条式子：

h M L = a r g m i n h \in H \sum i = 1 m (d i - h (x i)) 2

$h_{ML}= \underset{h\in H}{argmin}\sum^m_{i=1}(d_i-h(x_i))^2$
上面这条式子是怎么来得呢？？下面是过程：

h M L = a r g m i n h \in H P (D | h) = a r g m i n h \in H \prod i = 1 m P (d i | h) = a r g m i n h \in H \prod i = 1 m 1 2 π σ 2 - - - - \sqrt e x p - 1 2 (d i - h ( x i ) σ) 2 = a r g m i n h \in H \sum i = 1 m I n 1 2 π σ 2 - - - - \sqrt - 1 2 (d i - h ( x i ) σ) 2 = a r g m i n h \in H \sum i = 1 m (d i - h (x i)) 2

$h_{ML}=\underset{h\in H}{argmin} P(D|h)\\ =\underset{h\in H}{argmin}\prod^m_{i=1}P(d_i|h)\\ =\underset{h\in H}{argmin}\prod^m_{i=1}\frac{1}{\sqrt{2\pi \sigma^2}}exp-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2\\ =\underset{h\in H}{argmin}\sum^m_{i=1}In\frac{1}{\sqrt{2\pi \sigma^2}}-\frac{1}{2}(\frac{d_i-h(x_i)}{\sigma})^2\\ = \underset{h\in H}{argmin}\sum^m_{i=1}(d_i-h(x_i))^2$
//因为e=d-h,且e符合中值为0的正太分布

优化的贝叶斯分类器

前面在讲得一直是如何选出最优的假设，但要知道 $h_{MAP}(x)$ 并不一定是最可能的分类，那么对一个新的实例x，我们要怎么对其进行分类呢？？？
一个例子先说明为什么 $h_{MAP}(x)$ 不一定是最可能的分类：

P (h 1 | D) = 0.4, P (h 2 | D) = 0.3, P (h 3 | D) = 0.3 h 1 (x) = +, h 2 (x) = -, h 3 (x) = -

$P(h_1|D)=0.4,P(h_2|D)=0.3,P(h_3|D)=0.3\\ h_1(x)=+\ ,h_2(x)=-\ ,h_3(x)=-$
//所以前面说那么多MAP啊ML啊的东西究竟有什么意思？？？

优化的贝叶斯分类器

根据下式进行分类

v O B = a r g m a x v j \in V \sum h i \in H P (v j | h i) P (h i | D)

$v_{OB}=\underset{v_j \in V}{arg max}\sum_{h_i \in H}P(v_j|h_i)P(h_i|D)$
例子：

P (h 1 | D) = 0.4, P (- | h 1) = 0, P (+ | h 1) = 1 p (h 2 | D) = 0.3, P (- | h 2) = 1, P (+ | | h 2) = 0 p (h 3 | D) = 0.3, P (- | h 2) = 1, P (+ | h 3) = 0 \sum h i \in H P (+ | h i) P (h i | D) = 0.4 \sum h i \in H P (- | h i) P (h i | D) = 0.6

$P(h_1|D)=0.4,P(-|h_1)=0,P(+|h_1)=1\\ p(h_2|D)=0.3,P(-|h_2)=1,P(+||h_2)=0\\ p(h_3|D)=0.3,P(-|h_2)=1,P(+|h_3)=0\\ \sum_{h_i\in H}P(+|h_i)P(h_i|D)=0.4\\ \sum_{h_i \in H}P(-|h_i)P(h_i|D)=0.6$

优化的贝叶斯分类器的优缺点

优点：
在相同假设空间以及基本知识的条件下，不存在平均效果比它更好得分类器了。
(Kein anderes Klassifikationsverfahren (bei gleichem Hypothesenraum und Vorwissen)schneidet im Durchschnitt besser ab.)
缺点：
当假设空间比较大使得他花费是相当可观的。

Gibbs算法

1.根据P(h|D)，随机从H中选出假设h
2.把h(x)作为x的分类
3.确定其期望值
上面这种算法在特定的假设下满足：

E [e r r o r G i b b s] < = 2 E [e r r o r B a y e s O p t i m a l]

$E[error_{Gibbs}]<=2E[error_{BayesOptimal}]$

幼稚的贝叶斯分类器

已知：
1.实例x：<script id="MathJax-Element-34" type="math/tex"> </script>是属性a的交集(Konjunktion von Attributen)
2.类集合(有限的)V={ $v_1,...,v_m$ }
3. 训练数据，分类例子的集合
目标：
针对输入实例的最可能的类

v M A P = a r g m a x v j \in V P (v j | a 1, a 2, . . ., n) = a r g m a x v j \in V P ( a 1 , a 2 , . . . , a n | v j ) P ( v j ) P ( a 1 , a 2 , . . . , a n ) = a r g m a x v j \in V P (a 1, a 2, . . ., a n | v j) P (v j)

$v_{MAP}=\underset{v_j \in V}{argmax}P(v_j|a_1,a_2,...,n)\\ =\underset{v_j \in V}{argmax}\frac{P(a_1,a_2,...,a_n|v_j)P(v_j)}{P(a_1,a_2,...,a_n)}\\ =\underset{v_j \in V}{argmax}P(a_1,a_2,...,a_n|v_j)P(v_j)$
其中:

P(vi) $P(v_i)$ 可以通过数数比较容易得到

P(a1,a2,..,an|vj) $P(a_1,a_2,..,a_n|v_j)$ 考虑到属性a的各种结合方式，这个对训练数据的要求比较高啊
因此我们对上式进行简化，我们假设属性

ai $a_i$ 之间是非条件关联的(

ai $a_i$ bedingt unabhängig):

P (a 1, a 2, . . ., a n | v j) = \prod i P (a i, | v j)

$P(a_1,a_2,...,a_n|v_j)=\prod_iP(a_i,|v_j)$
由此我们得到了一个幼稚的(简化了的)贝叶斯分类器：

v N B = a r g m a x v j \in V P (v j) \prod i P (a i | v j)

$v_{NB}=\underset{v_j \in V}{argmax}P(v_j)\prod_iP(a_i|v_j)$

非条件关联(bedingte Unabhängigkeit)

如果有：

(\forall x i, y j, z k) P (X = x i | Y = y j, Z = z k) = P (X = x i | Z = z k)

$(\forall x_i,y_j,z_k)P(X=x_i|Y=y_j,Z=z_k)=P(X=x_i|Z=z_k)$
那么我们就说X在给定Z的条件下与Y非条件关联
/*定义原文
X ist bedingt unabhängig von Z gegeben Z ,wenn die Wahrscheinlichkeitsverteilung von X bei gegebenem Wert von Z unabhängig vom Wert von Z ist.
*/

总结

1. $P(v_j),P(a_i|v_j)$ 都是数出来的
2.分类的概率和假设相对应
(Wahrscheinlichkeiten für Klassifikation enspricht gelernter Hypothese)
3.新的实例会通过MAP规则进行分类
4.当满足非条件关联时NB分类和MAP分类等价
(Keine explizite Suche im Hypothesenraum???)
//课件里有一例子，S31

问题(Schätzen von Wahrscheinlichkeiten)

假如类型为 $v_j$ 的训练数据中属性值为 $a_i$ 的一次也没有出现怎么办？？？

P (a i | v j) = 0 \to P (v j) \prod i P (a i | v j) = 0

$P(a_i|v_j)=0 \rightarrow P(v_j)\prod_i P(a_i|v_j)=0$
解决方法：使用Laplace估值(好像叫平滑定理来着的)(m-Laplace Schätzer)

P (a i | v j) \leftarrow n c + m p n + m

$P(a_i|v_j)\leftarrow \frac{n_c+mp}{n+m}$
其中：
n为例子中

v=vj $v=v_j$ 的数量

nc $n_c$ 为例子中

v=vj,a=aj $v=v_j,a=a_j$ 的数量
p是

P(ai|vj) $P(a_i|v_j)$ 的前验概率，比如：p=

1Value(ai) $\frac{1}{Value(a_i)}$
m表示虚假例子的数量(virtuellen Beispiele)

例子：文章分类

好吧其实只是区分为感兴趣和不感兴趣两类，更像是垃圾邮件分类：Document $\rightarrow$ {+,-}
1.用由单词组成的向量表示文章，每个位置都是一个表示属性
(Repräsentation jedes Textes als Vektor aus Wörtern:Ein Attribut pro Wortposition im Dokument)
2.学习阶段：通过训练数据估计下面值：P(+),P(-),P(doc|+),P(doc|-)，其中有

P (d o c | v j) = \prod i = 1 l e n g t h (d o c) P (a i = w k | v j)

$P(doc|v_j)=\prod^{length(doc)}_{i=1}P(a_i=w_k|v_j)$

P(ai=wk|vj) $P(a_i=w_k|v_j)$ 为在给定

vj $v_j$ 的条件下单词

wk $w_k$ 在位置

ai $a_i$ 出现的概率
另外加上一个弱化条件bag of words:

P (a i = w k | v j) = P (a m = w k | v j), \forall i, m

$P(a_i=w_k|v_j)=P(a_m=w_k|v_j), \forall i,m$
/*？？？？？
给跪了，翻译过来就是

wk $w_k$ 在第i个位置出现的概率等于其在第m个位置的概率，针对任意的i，m。也就是说这个单词在每个位置出现的概率是相同的？？？
另外为什么整个doc的概率就由一个单词来决定？？？
感觉下一页ppt和这一页有点接不上？？？
*/
搜集vocabulary：

v a o c a b u l a r y \leftarrow 训 练 例 子 中 所 有 的 单 词 和 特 殊 符 号

$vaocabulary \leftarrow 训练例子中所有的单词和特殊符号$
计算每个类

vj $v_j$ 对应的

P(vj),P(wk|vj) $P(v_j),P(w_k|v_j)$ :

d o c s j \leftarrow 训 练 集 D 中 属 于 v j 的 子 集 P (v j) \leftarrow | d o c s j | | D | T e x t j \leftarrow d o c s j 中 元 素 的 链 接 n \leftarrow T e x t j 的 长 度 n k \leftarrow T e x t j 中 w k 出 现 的 次 数 P (w k | v j) \leftarrow n k + 1 n + | v o c a b u l a r y |

$docs_j \leftarrow 训练集D中属于v_j的子集\\ P(v_j)\leftarrow \frac{|docs_j|}{|D|}\\ Text_j\leftarrow docs_j中元素的链接\\ n\leftarrow Text_j的长度\\ n_k\leftarrow Text_j中w_k出现的次数\\ P(w_k|v_j)\leftarrow \frac{n_k+1}{n+|vocabulary|}$
//感觉和前一页的内容一样，但是好看多了
3.分类阶段
先定义position，他表示vocabulary中包含特殊符号的每一个position
//是vocabulary中的position还是元例子中的position？？
计算

vNB $v_{NB}$

v N B = a r g m a x v j \in V P (v j) \prod i \in P o s i t i o n P (a i | v j)

$v_{NB}=\underset{v_j \in V}{argmax}P(v_j)\prod_{i\in Position}P(a_i|v_j)$
不是训练例子中的特殊符号的position会被忽略
//有点晕，这是干嘛呢？？为什么弄个position出来，就是为了减少计算量吗，那又为什么会使用特殊符号的位置呢？？

尤曦

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
机器学习-贝叶斯学习(BayesLernen)

大纲1.动机 2.贝叶斯理论 3.MAP-/ML假设 4.优化的贝叶斯分类器 5.幼稚的贝叶斯分类器 6.例子 7.贝叶斯网络 8.EM算法 9.总结动机什么是贝叶斯学习他是一种统计学习方法，他具有以下的特点： 1.结合已有的信息(前验概率)和观察到的信息 2.通过贝叶斯可以获得对应观察的假设，以及这个假设成立对应的概率 (Hypothesen können mit einer
复制链接

扫一扫