朴素贝叶斯分类

最新推荐文章于 2024-06-12 20:10:09 发布

光尘92

最新推荐文章于 2024-06-12 20:10:09 发布

阅读量505

点赞数

分类专栏： Machine Learning 文章标签： python 朴素贝叶斯算法

本文链接：https://blog.csdn.net/hanli1992/article/details/111674946

版权

Machine Learning 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

使用场景：文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断，朴素贝叶斯也常用于自然语言处理 NLP 的工具。

sklearn 机器学习包

提供了 3 个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）和伯努利朴素贝叶斯（BernoulliNB）。

高斯朴素贝叶斯：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度。
多项式朴素贝叶斯：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在一个单词出现的次数，或者是单词的 TF-IDF 值等。
伯努利朴素贝叶斯：特征变量是布尔变量，符合 0/1 分布，在文档分类中特征是单词是否出现。

TF-IDF 值（Term Frequency 和 Inverse Document Frequency）

词频 TF 计算了一个单词在文档中出现的次数，它认为一个单词的重要性和它在文档中出现的次数呈正比。
逆向文档频率 IDF，是指一个单词在文档中的区分度。它认为一个单词出现在的文档数越少，就越能通过这个单词把该文档和其他文档区分开。IDF 越大就代表该单词的区分度越大。

TF-IDF 实际上是词频 TF 和逆向文档频率 IDF 的乘积。找到 TF 和 IDF 取值都高的单词作为区分，即这个单词在一个文档中出现的次数多，同时又很少出现在其他文档中。这样的单词适合用于分类。

文档分类步骤：

基于分词的数据准备，包括分词、单词权重计算、去掉停用词；
应用朴素贝叶斯分类进行分类，首先通过训练集得到朴素贝叶斯分类器，然后将分类器应用于测试集，并与实际结果做对比，最终得到测试集的分类准确率。

模块 1：对文档进行分词

在英文文档中，最常用的是 NTLK 包

import nltk
word_list = nltk.word_tokenize(text) #分词
nltk.pos_tag(word_list) #标注单词的词性

在中文文档中，最常用的是 jieba 包

import jieba
word_list = jieba.cut (text) #中文分词

模块 2：加载停用词表

需要自己读取停用词表文件，从网上可以找到中文常用的停用词保存在 stop_words.txt，然后利用 Python 的文件读取函数读取文件，保存在 stop_words 数组中。

stop_words = [line.strip().decode('utf-8') for line in io.open('stop_words.txt').readlines()]

模块 3：计算单词的权重

创建 TfidfVectorizer 类，然后使用 fit_transform 方法进行拟合，得到 TF-IDF 特征空间 features，可以理解为选出来的分词就是特征。

max_df 参数用来描述单词在文档中的最高出现率。假设 max_df=0.5，代表一个单词在 50% 的文档中都出现过了，那么它只携带了非常少的信息，因此就不作为分词统计。一般很少设置 min_df，因为 min_df 通常都会很小。

from sklearn.feature_extraction.text import TfidfVectorizer
tf = TfidfVectorizer(stop_words=stop_words, max_df=0.5)
train_features = tf.fit_transform(train_contents)
test_features = tf.transform(test_contents)

模块 4：生成朴素贝叶斯分类器

alpha 为平滑参数，避免某个单词在训练样本中没有出现，导致概率被计算成0。

当 alpha=1 时，使用的是 Laplace 平滑。Laplace 平滑就是采用加 1 的方式，来统计没有出现过的单词的概率。这样当训练样本很大的时候，加 1 得到的概率变化可以忽略不计，也同时避免了零概率的问题。
当 0<alpha<1 时，使用的是 Lidstone 平滑。对于 Lidstone 平滑来说，alpha 越小，迭代次数越多，精度越高。我们可以设置 alpha 为 0.001。

# 多项式贝叶斯分类器
from sklearn.naive_bayes import MultinomialNB  
clf = MultinomialNB(alpha=0.001).fit(train_features, train_labels)

模块 5：使用生成的分类器做预测

用训练好的分类器对新数据做预测。方法是使用 predict 函数，传入测试集的特征矩阵 test_features，得到分类结果 predicted_labels。predict 函数做的工作就是求解所有后验概率并找出最大的那个。

predicted_labels = clf.predict(test_features)

模块 6：计算准确率

from sklearn import metrics
print metrics.accuracy_score(test_labels, predicted_labels)

光尘92

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
朴素贝叶斯分类

使用场景：文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断，朴素贝叶斯也常用于自然语言处理 NLP 的工具。sklearn 机器学习包提供了 3 个朴素贝叶斯分类算法，分别是高斯朴素贝叶斯（GaussianNB）、多项式朴素贝叶斯（MultinomialNB）和伯努利朴素贝叶斯（BernoulliNB）。高斯朴素贝叶斯：特征变量是连续变量，符合高斯分布，比如说人的身高，物体的长度。多项式朴素贝叶斯：特征变量是离散变量，符合多项分布，在文档分类中特征变量体现在
复制链接

扫一扫

专栏目录