Naive_bayes

最新推荐文章于 2021-09-13 14:23:53 发布

kakak_

最新推荐文章于 2021-09-13 14:23:53 发布

阅读量144

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105381762

版权

Machine Learning 专栏收录该内容

38 篇文章 2 订阅

订阅专栏

机器学习分类算法多使用判别方法，直接学习出特征输出Y和特征X之间的关系，要么是决策函数 $Y = f (x)$ ，要么是条件分布 $P (Y ∣ X)$
朴素贝叶斯却是生成方法，直接找出特征输出Y和特征X的联合分布 $P (X) P (Y)$ ，然后用 $P (Y ∣ X) = P (X, Y) / P (X)$ 得出。

统计概率

先验概率+数据=后验概率
先验概率就是对于数据所在领域的历史经验，但是常常难以量化或模型化，贝叶斯学派大胆的假设先验分布的模型，比如正态分布，beta分布等。
条件独立公式，如果X和Y相互独立，则有： $P (X, Y) = P (X) P (Y)$
条件概率公式： $P (Y ∣ X) = P (X, Y) / P (X)$ $P (Y ∣ X) = P (X ∣ Y) P (Y) / P (X)$
全概率公式 $\sum\limits_{k}P(X|Y =Y_k)P(Y_k) 其中\sum\limits_{k}P(Y_k)=1$
贝叶斯公式： $P(Y_k|X) = \frac{P(X|Y_k)P(Y_k)}{\sum\limits_{k}P(X|Y =Y_k)P(Y_k)}$

朴素贝叶斯

假如分类模型样本是 $x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, ...x_n^{(2)},y_2), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_m)$

即有m个样本，每个样本有n个特征，特征输出有K个类别， $C_1,....,C_k$

先验分布: $P(Y=C_k)$
条件概率分布: $P(X=x|Y=C_k) = P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$
联合分布: $P(X,Y=C_k) = P(Y=C_k)P(X=x|Y=C_k)$ $P(Y=C_k)P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k)$

先验分布：类别 $C_k$ 在训练集中出现的频数
条件概率分布：朴素贝叶斯假设X的n个维度之间相互独立 $P(X_1=x_1, X_2=x_2,...X_n=x_n|Y=C_k) = P(X_1=x_1|Y=C_k)...P(X_n=x_n|Y=C_k)$

推论

最大化预测概率 $C_{result} = \underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)})$ $\underbrace{argmax}_{C_k}P(X=X^{(test)}|Y=C_k)P(Y=C_k) /P(X=X^{(test)})$
对于每一种 $C_k$ ， $P(X=X^{(test)})$ 相同，利用朴素贝叶斯的独立性假设： $C_{result} = \underbrace{argmax}_{C_k}P(Y=C_k)\prod_{j=1}^{n}P(X_j=X_j^{(test)}|Y=C_k)$

$P(Y=C_k)$ : 样本类别 $C_k$ 出现的次数 $m_k$ 除以样本总数m。
$P(X_j=X_j^{(test)}|Y=C_k)$ 取决于先验条件：
- 如果 $X_j$ 是离散值，那么可以假设 $X_j$ 符合多项式分布: $P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}}}{m_k}$ 其中 $m_k$ 为样本类别为 $C_k$ 的样本数，而 $m^{test}_{jk}$ 为类别为 $C_k$ 的样本中，第j维特征 $X^{test}_j$ 出现的计数。
  某些类别在样本中没有出现，会导致 $P(X_j=X_j^{(test)}|Y=C_k)$ 为0，影响后验的估计。为解决这种情况，引入了拉普拉斯平滑： $P(X_j=X_j^{(test)}|Y=C_k) = \frac{m_{kj^{test}} + \lambda}{m_k + O_j\lambda}$ 　其中𝜆 为一个大于0的常数，常常取为1。 $O_j$ 为第j个特征的取值个数。
- 如果 $X_j$ 是非常稀疏的离散值，即各个特征出现概率很低，这时可以假设 $X_j$ 符合伯努利分布: $P(X_j=X_j^{(test)}|Y=C_k) = P(X_j=1|Y=C_k)X_j^{(test)} + (1 - P(X_j=1|Y=C_k))(1-X_j^{(test)})$ 特征 $X_j^{(test)}$ 出现(只要不为0)为1，不出现记为0，只统计 $Y=C_k$ 时， $X_j^{(test)}$ 出现(不为0值)和不出现的频率。
- 如果 $X_j$ 是连续值，通常取 $X_j$ 的先验概率为正态分布： $P(X_j=X_j^{(test)}|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp{(}-\frac{(X_j^{(test)} - \mu_k)^2}{2\sigma_k^2}{)}$

算法流程

输入：分类模型样本 $x_1^{(1)}, x_2^{(1)}, ...x_n^{(1)}, y_1), (x_1^{(2)}, x_2^{(2)}, ...x_n^{(2)},y_2), ... (x_1^{(m)}, x_2^{(m)}, ...x_n^{(m)}, y_m)$ ，K个类别 $C_1,....,C_k$
输出：实例 $X^{(test)}$ 类别。

如果没有Y的先验概率，则计算Y的K个先验概率： $P(Y=C_k) = (m_k+\lambda)/(m+K\lambda)$ ，否则 $P(Y=C_k)$ 为输入的先验概率。
分别计算第k个类别的第j维特征的第l个取值条件概率：
- 离散值: $P(X_j=x_{jl}|Y=C_k) = \frac{m_{kjl} + \lambda}{m_k + O_j\lambda}$
- 稀疏二项离散值: $P(X_j=x_{jl}|Y=C_k) = P(j|Y=C_k)x_{jl} + (1 - P(j|Y=C_k))(1-x_{jl})$
- 连续值计算均值和方差: $P(X_j=x_j|Y=C_k) = \frac{1}{\sqrt{2\pi\sigma_k^2}}exp{(}-\frac{(x_j - \mu_k)^2}{2\sigma_k^2}{)}$
对于 $X^{(test)}$ 计算每种类别成立的相对概率： $P=P(Y=C_k)\prod_{j=1}^{n}P(X_j=x_j^{(test)}|Y=C_k)$
输出类别： $C_{result} = \underbrace{argmax}_{C_k}P(Y=C_k|X=X^{(test)})$

算法小结

主要优点

对小规模的数据表现很好，能个处理多分类任务，在数据量超出内存时，可以一批批增量训练。
对缺失数据不太敏感，算法较简单，常用于文本分类。

主要缺点

在属性个数比较多或者属性之间相关性较大时，分类效果不好。
需要知道先验概率，且先验概率很多时候取决于假设，会由于假设的先验模型不准确导致预测效果不佳。
通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

kakak_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Naive_bayes

机器学习分类算法多使用判别方法，直接学习出特征输出Y和特征X之间的关系，要么是决策函数Y=f(x)Y=f(x)Y=f(x)，要么是条件分布P(Y∣X)P(Y|X)P(Y∣X)朴素贝叶斯却是生成方法，直接找出特征输出Y和特征X的联合分布P(X)P(Y)P(X)P(Y)P(X)P(Y)，然后用P(Y∣X)=P(X,Y)/P(X)P(Y|X) = P(X,Y)/P(X)P(Y∣X)=P(X,Y)/P...
复制链接

扫一扫

专栏目录