朴素贝叶斯

最新推荐文章于 2020-07-22 20:39:16 发布

flashTianjiao

最新推荐文章于 2020-07-22 20:39:16 发布

阅读量263

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/flashtianjiao/article/details/74853411

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、原理

朴素贝叶斯和贝叶斯估计不是一回事。
朴素贝叶斯基于条件独立性假设： $P(X=x|Y=c_k)=\prod_{j=1}^nP(X^j=x^j|Y=c_k)$
朴素贝叶斯是学习到生成数据的机制，属于生成模型。

2、流程

输入：训练数据 $T=\{(x_1,y_1),(x_2,y_2),....,(x_n,y_n)\}，其中x_i=(x_i^1,x_i^2,...x_i^n),x_i^j是第i个样本的第j个特征$ ， $x_i^j\in\{a_j1,a_j2,...,a_{jS_l}\}，其中a_{jl}是第j个特征可能取的第l个值,j=1,2,...,n;l=1,2,...,S_j,y_i\in \{c_1,c_2,...,c_k\}$
输出：实例x的分类
(1)计算先验概率和条件概率
先验概率： $P(Y=c_k)=\frac{\sum_{i=1}^N I(y_i = c_k)}{N}, k=1,2,...,K$
条件概率： $P(X^j= a_{jl}|Y=c_k) = \frac{\sum_{i=1}^N I(x_i^j=a_{jl},y_i = c_k)}{\sum_{i=1}^N I(y_i = c_k)},j=1,2,...n; l=1,2,...S_j;k=1,2,...K$
(2)对于给定的实例 $x_i=(x_i^1,x_i^2,...x_i^n)$ ,计算

P (Y = c k) \prod j = 1 n P (X j = x j | Y = c k), k = 1, 2, . . ., K

$P(Y=c_k)\prod_{j=1}^nP(X^j=x^j|Y=c_k), k=1,2,...,K$
(3)确定实例x的类

y = a r g max c k P (Y = c k) \prod j = 1 n P (X j = x j | Y = c k)

$y=arg \max_{c_k}P(Y=c_k)\prod_{j=1}^nP(X^j=x^j|Y=c_k)$

3、拉普拉斯校准

当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。

4、遇到特征之间不独立问题

参考改进的贝叶斯网络，使用DAG来进行概率图的描述

5、优缺点

优点：对小规模的数据表现很好，适合多分类任务，适合增量式训练。
缺点：对输入数据的表达形式很敏感（离散、连续，值极大极小之类的）。

flashTianjiao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯

1、原理朴素贝叶斯和贝叶斯估计不是一回事。朴素贝叶斯基于条件独立性假设：P(X=x|Y=ck)=∏nj=1P(Xj=xj|Y=ck)P(X=x|Y=c_k)=\prod_{j=1}^nP(X^j=x^j|Y=c_k) 朴素贝叶斯是学习到生成数据的机制，属于生成模型。2、流程输入：训练数据T={(x1,y1),(x2,y2),....,(xn,yn)}，其中xi=(x1i,x2i,...xn
复制链接

扫一扫