机器学习实战 | 第4章基于概率论的分类方法：朴素贝叶斯

最新推荐文章于 2024-10-02 10:53:34 发布

小沈同学_

最新推荐文章于 2024-10-02 10:53:34 发布

阅读量200

点赞数

分类专栏：机器学习文章标签： python 机器学习算法朴素贝叶斯算法

本文链接：https://blog.csdn.net/Shen___/article/details/102812487

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

4.1 基于贝叶斯决策理论的分类方法

				朴素贝叶斯
优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。
适用数据类型：标称型数据。

用p1(x,y)表示数据点(x,y)属于类别1的概率；
用p2(x,y)表示数据点(x,y)属于类别2的概率；
那么对于一个新数据点(x,y)，可以用下面的规则来判断它的类别：
 如果 p1(x,y) > p2(x,y)，那么类别为1。
 如果 p2(x,y) > p1(x,y)，那么类别为2。

贝叶斯决策理论的核心思想：选择具有最高概率的决策。

4.2 条件概率

贝叶斯准则：告诉我们如何交换条件概率中的条件与结果，即如果已知P(x|c)，要求P(c|x)，则：

4.3 使用条件概率来分类

贝叶斯理论真正需要计算和比较的是p(c1|x, y)和p(c2|x, y)。
这些符号所代表的具体意义是：
给定某个由x、y表示的数据点，那么该数据点来自类别c1的概率是多少？数据点来自类别c2的概率又是多少？
应用贝叶斯准则：

4.4 使用朴素贝叶斯进行文档分类

朴素贝叶斯是贝叶斯分类器的一个扩展，是用于文档分类的常用算法。

										朴素贝叶斯的一般过程
(1) 收集数据：可以使用任何方法。本章使用RSS源。
(2) 准备数据：需要数值型或者布尔型数据。
(3) 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
(4) 训练算法：计算不同的独立特征的条件概率。
(5) 测试算法：计算错误率。
(6) 使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

朴素贝叶斯分类器通常有两种实现方式：
1)基于贝努利模型实现，
2)基于多项式模型实现。
这里采用前一种实现方式。该实现方式中并不考虑词在文档中出现的次数，只考虑出不出现，因此在这个意义上相当于假设词是等权重的。
4.5.4节给出的实际上是多项式模型，它考虑词在文档中的出现次数。

4.5 使用 Python 进行文本分类

要从文本中获取特征，需要先拆分文本。
以在线社区的留言板为例。对言论建立两个类别：侮辱类和非侮辱类，使用1和0分别表示。
接下来首先给出将文本转换为数字向量的过程，然后介绍如何基于这些向量来计算条件概率，并在此基础上构建分类器，最后还要介绍一些利用Python实现朴素贝叶斯过程中需要考虑的问题。

4.5.1 准备数据：从文本中构建词向量

我们将把文本看成单词向量或者词条向量，也就是说将句子转换为向量。考虑出现在所有文档中的所有单词，再决定将哪些词纳入词汇表或者说所要的词汇集合，然后必须要将每一篇文档转换为词汇表上的向量。

程序清单4-1 词表到向量的转换函数

将一组单词转换为一组数字

from numpy import *

def loadDataSet():
    '''
    postingList: 进行词条切分后的文档集合
    classVec:类别标签
    使用伯努利模型的贝叶斯分类器只考虑单词出现与否（0，1）
    '''
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1代表侮辱性文字，0代表正常言论
    return postingList,classVec


def Create_wordVec(dataset):
    # 创建一个空集
    word_set = set([])
    for doc in dataset:
        # 创建两个集合的并集
        word_set = word_set | set(doc) # 通过对两个集合取并，找出所有非重复的单词
    return list(word_set)

def Words2Vec(wordList, input_set):
    '''
    @wordList：为前一个函数的输出值（包含单词）
    @input_set：输入需要分类的集合
    函数输出：包含0，1的布尔型向量（对应Wordlist中的单词出现与否）
    '''
    return_vec = [0] * len(wordList)
    # 创建与词汇表等长的列表向量，其中所含元素都为0
    for word in input_set:
        if word in wordList:
            return_vec[wordList.index(word)] = 1 # 出现的单词赋1
        else: print("the word %s is not in list" % word)
    return return_vec

执行：

>import bayes
>wordlist,classlist = bayes.loadDataSet()
>myVoc = bayes.Create_wordVec(wordlist)
>myVoc
['is', 'love', 'please', 'to', 'has', 'him', 'dog', 'stop', 'mr', 'ate', 'how', 'stupid', 'licks', 'garbage', 'buying', 'posting', 'cute', 'quit', 'food', 'I', 'so', 'worthless', 'maybe', 'flea', 'park', 'help', 'problems', 'dalmation', 'take', 'not', 'steak', 'my']
>bayes.Words2Vec(myVoc,wordlist[0])
[0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1]
>bayes.Words2Vec(myVoc,wordlist[3])
[0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]