基于词袋模型的垃圾邮件分类

最新推荐文章于 2023-01-08 17:25:41 发布

空字符（公众号：月来客栈）

最新推荐文章于 2023-01-08 17:25:41 发布

阅读量846

点赞数

本文链接：https://blog.csdn.net/The_lastest/article/details/106265719

版权

本文介绍了一种基于词频的词袋模型文本表示方法，用于垃圾邮件分类。通过sklearn库展示了数据预处理、模型训练的流程，使用朴素贝叶斯分类器对中文邮件数据集进行分类。

摘要由CSDN通过智能技术生成

跟我一起机器学习系列文章将首发于公众号：月来客栈，欢迎搜索关注！

在上一篇文章中我们介绍了用于文本表示的词袋模型，并且详细阐述了如何将文本表示成向量。其主要思想是对比词表中的每个词是否出现在样本中，如果样本中包含有该词，则词表对应位置就用1来表示，没有包含则用0表示，最终得到一个仅包含0，1的向量来表示一个样本。但这是这样做的弊端之一就是：没有考虑到词的出现频率，即不管一个词出现了多少次，最后都仅仅用1来表示其出现过。因此，在这篇文章中笔者将首先介绍另外一个种考虑词频的词袋表示模型，然再用这种文本表示进行垃圾邮件分类。

1 文本表示

1.1 向量表示

下面介绍的这种基于词袋模型的文本表示方法与上一篇文章中介绍的方法的唯一不同点在于前者考虑的词频。

如图所示，最上面为原始样本，中间为词表，最下边为两种词袋模型的表示结果。其中左边的表示方法就是我们在上一篇文章中所介绍到的方法，它只考虑词表中的单词是否出现，而不关系出现次数；而右边的表示方法同时还考虑到了每个词的出现频率。

1.2 示例

虽然在上一篇文章中我们已经介绍了如何自己来编码实现，但其实这一方法在sklearn中已经被实现了。接下来我们就通过sklearn中的方法来进行示例。在sklearn中，我们可以通过CountVectorizer这一类方法来完成上诉步骤。

from sklearn.feature_extraction.text import CountVectorizer

s = ['文本 分词 工具 可 用于 对 文本 进行 分词 处理',
     '常见 的 用于 处理 文本 的 分词 处理 工具 有 很多']
count_vec = CountVectorizer()
x = count_vec.fit_transform(s).toarray()
vocab = count_vec.vocabulary_
vocab = sorted(vocab.items(),key=lambda x:x[1])
print(vocab)
print(x)

#结果
[('分词', 0), (