中文NLP-文本分类方法之朴素贝叶斯分类器

最新推荐文章于 2022-03-31 09:53:01 发布

IT_bigstone

最新推荐文章于 2022-03-31 09:53:01 发布

阅读量514

点赞数

分类专栏： NLP 文章标签： NLP 文本分类朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IT_bigstone/article/details/80737858

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

朴素贝叶斯法（Naïve Bayes）是基于贝叶斯定理与特征条件独立假设的分类方法，属于统计学分类方法。简单来说，朴素贝叶斯分类器假设在给定样本类别的条件下，样本的每个特征与其他特征均不相关，对于给定的输入，利用贝叶斯定理，求出后验概率最大的输出。朴素贝叶斯法实现简单，学习与预测的效率均较高，在文本分类领域有广泛的应用。

1.准备知识

条件概率

\[P(A|B)\]

指事件A在事件B发生条件下发生的概率。

联合概率

\[P(AB)\]

指事件A与事件B同时发生的概率。

贝叶斯定理

\[P(B|A)=\frac{P(A|B)P(B)}{P(A)}\]

词向量

为一段文本的向量化表示，表征文本特征。

2.朴素贝叶斯分类器

对于给定的待分类文本，求解该文本出现的条件下各个类别的概率，概率最大的类别就被认为该文本的类别。简单表述如下：

1) 设

\[x=\left \{ {w_{1},w_{2},w_{3},...,w_{n}} \right \}\]

为一个待分类文本，其中为文本中的特征词/属性。

2) 设文本类别

\[C=\left \{ {C_{1},C_{2},C_{3},...,C_{d}} \right \}\]

3) 求解文本所属类别c

\[c=\underset{C_{d}}{argmax}P(C_{d}|x) =\underset{C_{d}}{argmax}\frac{P(C_{d})P(x|C_{d})}{P(x)} =\underset{C_{d}}{argmax}\frac{P(C_{d})}{P(x)}\prod_{i=1}^{n}P(w_{i}|d)\]

通过训练数据，可以根据大数定理估计上式的先验概率

\[P(C_{d})\]

而为了估计类条件概率

\[P(x|C_{d})\]

朴素贝叶斯分类器方法假设样本的所有特征在给定所属类别的情况下相互独立，也就是

\[x=\left \{ {w_{1},w_{2},w_{3},...,w_{n}} \right \}\]

中的特征相互独立。从而利用联合概率公式计算出类条件概率如下：

\[P(x|C_{d})=\prod_{i=1}^{n}P(w_{i}|C_{d})\]

训练朴素贝叶斯分类器的过程，就是利用训练数据估算先验概率与类条件概率，从而在新文本输入时，利用估算的先验概率和类条件概率即可求出相应的后验概率，后验概率最大的类别即为分类结果。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。