【机器学习】朴素贝叶斯(Naive Bayes)

1. 思想

通过贝叶斯公式,计算最大后验MAP

2. 贝叶斯公式

P(\theta_{i}|X) = \frac{P(\theta_{i} X)}{P(X)} = \frac{P(X|\theta_{i})P(\theta_{i})}{p(X)}=\frac{P(X|\theta_{i})P(\theta_{i})}{\sum_{i=1}^{N}P(X|\theta_{i})P(\theta_{i})}

3. 前提假设

朴素贝叶斯之所以称之为"朴素",原因在于它的前提假设是条件独立性。在数据集中,它假设在已知观测值Y(我们的预测值)的情况下,各个特征两两相互独立

3.1 公式表达

P(X_1,X_2, ...,X_N|Y) = P(X_1|Y)P(X_2|Y)...P(X_N|Y)

3.2 图表达

说明:在已知Y的情况下,X1~XN与Y的链子就会断裂,从而导致X1~XN相互独立。

3.3 案例解释

现我们有如下字段:

智力(I):i^0(低),i^1(高)

考试成绩(G):g^1(及格),g^2(良好),g^{3}(优秀)

高考成绩(S):s^1(低),s^2(高)

观测值YI

特征XG,S

当我们不知道一个人的智力(I)时,我们可以通过判断这个人的考试成绩(G)来推断这个人的高考成绩(S)会如何。但是,当我们知道这个人的智力后,GS就没有关系了。因为哪怕一个已知高智商的人的考试成绩(G)只取得了及格(g^1),也不影响我们判断这个人的高考成绩会取得高(s^2)。这表明已知I,G对S没有影响,即相互独立。

4. 求解方法

4.1 X和Y离散

老老实实MAP穷举

如:

y = \mathop{ \arg \max }_{\hat{y}}P(Y|X) =\mathop{ \arg \max }_{\hat{y}} \frac{P(Y)P(X|Y)}{P(X)} = \mathop{ \arg \max }_{\hat{y}}P(Y)P(X|Y) = \mathop{ \arg \max }_{\hat{y}}P(Y)\prod_{i=1}^{N}P(x_i|y)

P(X)之所以不考虑是因为它不影响我们取到最大值。

4.2 X和Y连续可导

若不熟悉以下方法,可以参考笔者的其它文章   →  最大似然估计与贝叶斯公式 梯度下降和牛顿法

4.2.1 最大似然估计

后验分布P(\theta |X)\theta求导,求出令导数为0的\theta即可

4.2.2 梯度下降或牛顿法

通过泰勒公式的一阶和二阶展开形式,持续迭代x,得到后验分布P(\theta |X)的局部最优解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值