ML_10贝叶斯Bayes

最新推荐文章于 2020-11-09 09:50:01 发布

w317672256

最新推荐文章于 2020-11-09 09:50:01 发布

阅读量160

点赞数

分类专栏：机器学习文章标签：贝叶斯

本文链接：https://blog.csdn.net/w317672256/article/details/97303502

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

参考了周志华机器学习
李航统计学习方法和课件
曾志军机器学习（中译本）

原理

贝叶斯是统计学习过程结合了先验知识和观测数据，与极大似然法的区别就是，贝叶斯会根据新增案例来改变模型，而极大似然法不会。

分类

voting gibbs （optimaler Bayes-Klassifikator）
naiver bayes-klassifikator
bayessche netze
他也用于半监督学习
这个地方留给半监督学习

实际应用出现的问题

先验概率和分布不可得，所以根据背景知识以及观测数据估计
贝叶斯发明出来的时间较早，但是计算量很大，所以随着计算机能力的提升才真正得以使用

概率理论

乘法规则：两个事件的结合
$P(A\cap B)=P(A|B)P(B)=P(B|A)P(A)$
加法规则
$P(A\cup B)=P(A)+P(B)-P(A\cap B)$
全概率
已知 $\sum_{i=1}^NP(B|A_i)P(A_i)=P(B)$
贝叶斯公式
$P(h|D)=\frac{P(D|h)P(h)}{P(D)}$
P(D)可以从观测数据中得到的概率
P(D|h)h这个知识体系中，D发生的概率，也就是似然，likelihood
P(h|D) posteriori 后验概率
P(h) priori 先验概率，就是知识体系。

不相关性

如果YZ两个事件不相关 $P (X ∣ Y, Z) = P (X ∣ Z)$
例子：
打雷相对于闪电跟下雨没关所以
P(打雷|下雨，闪电）=P(打雷|闪电）

假设选择公式MAP

maximum of posteriori
$h_{MAP}=arg\max_{h\in H}\frac{P(D|h)P(h)}{P(D)}=arg\max_{h\in H}P(D|h)P(h),P(D) = const.$
而对于最大似然法(maximum likelihood)来说，他的体系是固定的 $P(h_i)=P(h_j)$ ,
所以， $h_{ML}=arg\max_{h\in H}P(D|h_i)$

BRUTE-FORCE 算法

计算每一个 $h\in H$ 的后验概率
选择最大的后验概率对应的h
此算法需要较大的计算量
例子
已知
P(癌症）=0.008, P(非癌症)=0.992
P(结果为阳性|癌症）=0.98，P(结果为阴性|癌症）=0.02
P(结果为阳性|非癌症=0.03， P(结果为阴性|费癌症=0.97
$P(癌症|阳性）=\frac{P(+|Krebs)P(Krebs)}{P(+)} =\frac{P(+|Krebs)P(Krebs)}{P(+|Krebs)P(Krebs)+P(+|!Krebs)P(!Krebs)}=0.98*0.008/(0.98*0.008+0.03*0.992)=0.21$
这个是求的后验概率，病人有病的可能
$h_{MAP}=arg\max_{h\in \{Krebs,!Krebs\}}\{P(+|Krebs)P(Krebs),P(+|!Krebs)P(!Krebs)\}=arg\max_{h\in \{Krebs,!Krebs\}}\{0.0078,0.0298\},->h_{MAP}=!Krebs$
这个是正确解法，判断病人没有癌症
当没有学习的时候对于h的估计如最左，当不断的增加数据的时候，就越来越向右变化，直至接近唯一假设

可以用ml来估计目标方程，但是在训练模型的时候是考虑到了噪声，但是测量的时候却没有考虑噪声

optimaler bayes-Klassifikator（贝叶斯最优分类器）

每个假设等概率叠加
$v_OB=arg\max_{v_j\in V}\sum_{h_i\in H}P(v_j|h_i)P(h_i|D)$
改进gibbs
按照当前D的后验概率来组合假设，误分类率的期望是最优的两倍

naiver Bayes-Klassifikator（朴素贝叶斯分类器）

不考虑各个属性的相关性。
在这里插入图片描述
分别计算这一情况下去和不去的概率。
由于有一些属性概率是0，导致相乘的时候影响其他属性，所以要统一分子分母加拉普拉斯估计
他在文章分类上的研究，统计文章分类的关键字，去除常见字以及出现次数较少的字，确定用户喜欢的话题和讨厌的话题，每天推荐用户评分前10%，今日头条是这个原理么？

bayessche Netze（贝叶斯信念网）

考虑属性间的相关性
对于两个属性影响结果的可能变成了4种
贝叶斯网络的学习：
结构已知，所有变量都可观察：naiven Bayes-Klassifikator
结构已知，少量变量可观察：梯度上升，EM
结构未知：启发式过程

EM算法

高斯混合分布算法
一. Initialisierung 随机选h和μ
二. $E[z_{ij}]=\frac{P(x=x_i|\mu=\mu_j)}{\sum_{n=1}^2P(x=x_i|\mu=\mu_n)}=\frac{e^{-\frac{1}{2\delta^2}(x_i-\mu_j)^2}}{\sum_{n=1}^2e^{-\frac{1}{2\delta^2}(x_i-\mu_2)^2}}$
三. $\mu_j^{'}=\frac{1}{m}\sum_{i=1}^mE[z_{ij}]x_i$
一般EM算法

$Q (h^{'} ∣ h) = E [l n P (Y ∣ h^{'}) ∣ X, h)$
E: P(Y|X,h)
$h'=arg\max_{h'}Q$

w317672256

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML_10贝叶斯Bayes

参考了周志华机器学习李航统计学习方法和课件曾志军机器学习（中译本）原理贝叶斯是统计学习过程结合了先验知识和观测数据，与极大似然法的区别就是，贝叶斯会根据新增案例来改变模型，而极大似然法不会。分类voting gibbs （optimaler Bayes-Klassifikator）naiver bayes-klassifikatorbayessche netze他也用于半监督...
复制链接

扫一扫

专栏目录