python实现朴素贝叶斯文本分类案例

最新推荐文章于 2024-10-08 12:37:10 发布

creep_9

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量2.4k

点赞数 7

分类专栏：机器学习文章标签： python 机器学习算法

本文链接：https://blog.csdn.net/Velpro778/article/details/109331243

版权

本文介绍如何使用Python实现朴素贝叶斯文本分类，通过案例展示了将文本数据转化为词向量，训练朴素贝叶斯分类器，并讨论了词袋模型在文本分类中的应用。

摘要由CSDN通过智能技术生成

机器分类中，朴素贝叶斯分类简单又好用。
案例如下：给某论坛的评论中识别语句，屏蔽掉侮辱性词汇。
操作步骤如下：
在

文本数据转向量
即词表向量转成数组向量，规定0是非侮辱性词汇，1是侮辱性词汇。
这里先加载几个评论，（在预处理中可以用split()的方法，先把整个句子拆分成以单词为单位的词表。这里不多叙述。）

先提前引入一些计算数组的小零件

from numpy import ones, log，array
from numpy.ma import zeros

def loadDataset():
    postingList=[['my','dog','has','flea','problems','help','please'],
                 ['maybe','not','take','him','to','dog','park','stupid'],
                 ['my','dalmation','is','so','cute','I','love','him'],
                 ['stop','posting','stupid','worthless','garbage'],
                 ['mr','licks','ate','my','steak','how','to','stop','him'],
                 ['quit','buying','worthless','dog','food','stupid']]
    classVec=[0,1,0,1,0,1]
    return postingList,classVec

这段程序返回两个东西
第一个是词条切分后的集合
另一个是类别标签的集合，这里分成了两类，0 非侮辱性的，1 侮辱性的。这些由人工进行标注。
标注信息用于训练程序以便自动检索侮辱性留言。

def createVocabList(dataSet):
    vocabSet=set([]) # 创建空集
    for document in dataSet:
        vocabSet=vocabSet|set(document)  # 创建两个集合的并集
    return list(vocabSet)

这里创建了一个包含在所有文档中出现的不重复词的列表，输入set构造函数。set包含不重复词表。
用 | 将每篇文档返回的新词集