【机器学习】《统计学习方法》学习笔记第四章朴素贝叶斯法

最新推荐文章于 2024-11-11 09:10:26 发布

Altair_Alpha_

最新推荐文章于 2024-11-11 09:10:26 发布

阅读量150

点赞数

分类专栏：机器学习文章标签：概率论机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Altair_alpha/article/details/119987265

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

第四章　朴素贝叶斯法

简单理解：已有的大量样本告诉我们：“好吃的瓜”（类别）大部分（具体来说要用一个概率分布描述）是无籽的、甜的（特征），现在一个新样本过来，我们只能观察到它的特征是有/无籽的、甜/不甜的，要由此判断它是好吃还是不好吃的。一句话说，就是通过大量数据的统计规律得到由类别推特征的概率分布，然后通过贝叶斯公式对新样本由特征推类别。
设输入特征向量为 $X$ ，类别为 $Y$ ，所求概率分布为 $\mid Y = c_k)$ ，由于 $X = x$ 意味着在所有特征分量上构成的某个组合，其数量为指数量级，想求出该分布是不可行的。朴素贝叶斯对该问题做的简化是假设所有特征分量间是条件独立的，这样只需求出在每个分量上 $P(X^{(j)} = x^{(j)} \mid Y = c_k)$ 的分布，然后连乘即可求出某个特定组合的概率。
已知以上分布，再利用贝叶斯公式即可反转求出 $c_k \mid X = x)$ 的概率分布，即由特征推类别。取所有类别中概率最大的即为我们预测的类别。完整表达式：
$\arg\max_{c_k}\frac{P(Y = c_k)\prod\limits_{j} P(X^{(j)} = x^{(j)} \mid Y = c_k)}{\sum\limits _{k} P(Y = c_k)\prod\limits_{j}P(X^{(j)} = x^{(j)} \mid Y = c_k)}$
其中分母对于 $c_k$ 是一个常量，我们只需要求概率最大值，故可以省略。
算法：
1. 计算先验概率及条件概率（即：根据样本统计每个分类出现的概率和每个分类下各个特征的概率分布）；
2. 对于给定待预测实例 $(x^{(1)}, x^{(2)}, \cdots, x^{(n)})^T$ ，计算各分类的概率分布：
  $c_k) \prod\limits_{j}^{n} P(X^{(j)} = x^{(j)} \mid Y = c_k)$
  3.求出概率最大的分类，即为实例 $x$ 的预测分类。
一个问题：输入样本不充分可能导致某个条件概率 $P(X^{(j)} = x^{(j)} \mid Y = c_k)$ 错误的取到0，导致整个连乘概率直接为0（即使 $x$ 的其它分量概率可能很大），产生较大误差。解决思想也很简单：给每种情况概率的分子加一个常数 $\lambda$ ，对应的分母加k倍 $\lambda$ （k为情况的个数），这样各情况概率之和仍为1，而且当样本足够大时，对结果的几乎没有影响。常取 $\lambda=1$ ，这时称为拉普拉斯平滑 (Laplacian smoothing)。
$P_\lambda(Y=c_k) = \frac{\sum\limits_{i=1}^{N}I(y_i=c_k)+\lambda}{N+k\lambda}$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。