机器学习 | 朴素贝叶斯

目录

一、贝叶斯定理

 二、朴素贝叶斯分类器

基本概述

内容理解

三、 拉普拉斯修正

四、应用:垃圾邮件过滤

五、总结


一、贝叶斯定理

事件B发生的条件下,事件A发生的概率,成为事件A的条件概率,表示为P(A|B)

P(A|B) = \frac{P(AB)}{P(B)}

根据上式,可得:

P(AB)=P(A|B)P(B) 

同理,事件B在事件A发生的条件下的概率为:

 P(B|A) = \frac{P(AB)}{P(A)}

P(AB)=P(B|A)P(A)

 由上述可得贝叶斯公式

P(A|B)=\frac{P(A)P(B|A)}{P(B)}

 二、朴素贝叶斯分类器

基本概述

        朴素贝叶斯分类器是基于贝叶斯定理的概率分类算法。其核心思想是通过计算后验概率来进行分类。对于给定的输入特征,通过计算每个可能类别的后验概率,选择具有最高概率的类别作为输出。朴素贝叶斯分类器的关键在于属性条件独立性假设

内容理解

  • 先验概率P(X)、P(Y):根据以往的经验和分析得到的概率。
  • 后验概率P(Y|X):观测到 X 后对结果 Y 的估计,即给定数据样本 X 时 Y 成立的概率。反映了在看到数据样本 后 成立的置信度。
  • 事件独立性:当 P(A_{1},A_{2},A_{3},...,A_{n}) = P(A_{1})P(A_{2})P(A_{3})...P(A_{n}) 成立时,则称A1,A2,...,An为相互独立的事件,每个事件发生的概率互不影响。
  • 朴素:假设属性特征之间相互独立。那么贝叶斯公式中的 P(X|Y) 等价于:

P(X|Y)=P(x_{1}|Y)P(x_{2}|Y)P(x_{3}|Y)...P(x_{d}|Y)=\prod_{i=1}^{d}P(x_{i}|Y)

                  其中 d 为属性数目,x_{i}为 x 在第 属性上的取值

  • 朴素贝叶斯公式

P(Y|X)=\frac{P(Y)}{P(X)}\prod_{i=1}^{d}P(x_{i}|Y)

三、 拉普拉斯修正

在朴素贝叶斯中,如果某个属性值在训练集中没有与某个类同时出现过,那么在没有修正的情况下,该特征对应的条件概率会变成0,这会导致零概率问题、过拟合、信息损失。

拉普拉斯修正通过在所有计数上添加一个小的平滑项,处理在训练数据中出现的概率为0的情况

令N表示训练集D中可能的类别数,N_{i}表示第i个属性可能的取值数,则贝叶斯公式修正为:

P(C)=\frac{\left |D_{c} \right |+1}{\left | D \right |+N}

四、应用:垃圾邮件过滤

训练集:

ham为正常邮件信息,spam为垃圾邮件信息。

1. 加载数据集

def createVocabList(dataSet):
    vocabSet = set([])  # set集合元素不重复
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 取并集
    return list(vocabSet)

2. 数据预处理

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)  # 创建一个其中所含元素都为0的向量
    for word in inputSet:  
        if word in vocabList:  # 如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec  # 返回文档向量

3. 朴素贝叶斯训练

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  
    numWords = len(trainMatrix[0])  
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 文档属于垃圾邮件类的概率
    p0Num = np.ones(numWords)
    p1Num = np.ones(numWords)  # 词条出现数初始为1,拉普拉斯平滑
    p0Denom = 2.0
    p1Denom = 2.0  # 分母初始为2 ,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  # 统计属于侮辱类的条件概率所需的数据
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:  # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p0Denom)  
    return p0Vect, p1Vect, pAbusive  # 返回属于正常邮件类的条件概率数组,属于侮辱垃圾邮件类的条件概率数组,文档属于垃圾邮件类的概率

4. 分类

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

运行结果:

完整代码:

import numpy as np
import re
import random


def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)  # 取并集
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return returnVec  # 返回文档向量


def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec  # 返回词袋模型


def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)  # 计算训练的文档数目
    numWords = len(trainMatrix[0])  # 计算每篇文档的词条数
    pAbusive = sum(trainCategory) / float(numTrainDocs)  # 文档属于垃圾邮件类的概率
    p0Num = np.ones(numWords)
    p1Num = np.ones(numWords)  # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
    p0Denom = 2.0
    p1Denom = 2.0  # 分母初始化为2 ,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


def textParse(bigString):  # 将字符串转换为字符列表
    listOfTokens = re.split(r'\W*', bigString)  # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]  # 除了单个字母,例如大写的I,其它单词变成小写


def spamTest():
    docList = []
    classList = []
    fullText = []
    for i in range(1, 21):
        wordList = textParse(open('D:/Tencent/QQ/email/spam/%d.txt' % i, 'r').read())
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(1)  # 标记垃圾邮件,1表示垃圾文件
        wordList = textParse(open('D:/Tencent/QQ/email/ham/%d.txt' % i, 'r').read())
        docList.append(wordList)
        fullText.append(wordList)
        classList.append(0)  # 标记正常邮件,0表示正常文件
    vocabList = createVocabList(docList)
    trainingSet = list(range(40))
    testSet = []
    for i in range(6):  # 从40个邮件中,随机挑选出34个作为训练集,6个做测试集
        randIndex = int(random.uniform(0, len(trainingSet)))
        testSet.append(trainingSet[randIndex])
        del (trainingSet[randIndex])
    trainMat = []
    trainClasses = []
    for docIndex in trainingSet:
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))
        trainClasses.append(classList[docIndex])
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))
    errorCount = 0  # 错误分类计数
    for docIndex in testSet:  # 遍历测试集
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])  # 测试集的词集模型
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:  # 如果分类错误
            errorCount += 1  # 错误计数加1

    print('错误率为:%.2f%%' % (float(errorCount) / len(testSet) * 100))


if __name__ == '__main__':
    spamTest()

五、总结

朴素贝叶斯算法的优缺点

优点:

  • 适用于大规模数据集
  • 对小规模数据表现良好
  • 对缺失数据不敏感,常用于文本分类
  • 能处理多类别问题

缺点:

  • 属性之间相互独立:朴素贝叶斯的核心假设是特征之间相互独立,这在实际问题中往往并不成立,特别是在特征之间存在一定关联性的情况下,算法可能失效。
  • 不适用于连续型特征
  • 需要足够的训练数据:当数据量较小时,可能出现欠拟合问题。
  • 处理类别不平衡的问题较为困难: 当类别分布不平衡时,朴素贝叶斯可能会偏向于出现频率较高的类别。

朴素贝叶斯算法是一种简单、高效、易于实现的器学习算法,适用于文本分类等自然语言处理任务。在实际应用中,我们可以使用不同变体的朴素贝叶斯算法来处理不同类型的数据。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
朴素贝叶斯算法是一种基于贝叶斯定理的分类算法,它假设特征之间相互独立。这个假设使得算法具有较快的训练和预测速度,并且在处理大规模数据集时表现良好。 下面我将用图解的方式详细介绍朴素贝叶斯算法的原理和步骤。 首先,我们需要准备一个分类任务的数据集。假设我们要构建一个垃圾邮件分类器,数据集包含了一些已经标记好的邮件样本,每个邮件样本都有一些特征(如邮件内容、发件人等)和对应的标签(垃圾邮件/非垃圾邮件)。 第一步是计算先验概率。先验概率指的是在没有任何特征信息的情况下,某个样本属于某个类别的概率。在我们的例子中,就是计算垃圾邮件和非垃圾邮件出现的概率。 第二步是计算条件概率。条件概率指的是在已知某个特征条件下,某个样本属于某个类别的概率。对于朴素贝叶斯算法来说,我们假设所有特征之间相互独立,因此可以将条件概率拆分为各个特征的概率乘积。我们需要计算每个特征在每个类别下的概率。 第三步是应用贝叶斯定理。贝叶斯定理可以根据已知的特征计算某个样本属于某个类别的后验概率。后验概率越大,就说明该样本属于该类别的可能性越大。 最后,我们可以根据后验概率进行分类预测。选择具有最大后验概率的类别作为预测结果。 总结一下,朴素贝叶斯算法通过计算先验概率、条件概率和应用贝叶斯定理,实现了对样本的分类预测。它的优势在于简单、快速,并且在一些特定的数据集上表现出色。然而,它的假设可能不符合实际情况,所以在实际应用中需要考虑和验证数据的特性和假设的合理性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值