机器学习贝叶斯分类

m0_74017503

已于 2024-05-14 17:03:34 修改

阅读量782

点赞数 12

文章标签：机器学习分类人工智能

于 2024-05-14 16:55:08 首次发布

本文链接：https://blog.csdn.net/m0_74017503/article/details/138860809

版权

一、贝叶斯分类

1.概率论知识

条件概率的计算公式如下：

P(white|B)=P(white and B)/P(B)

条件：所有特征之间是条件独立。也就是“朴素”。

朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单，但有时会牺牲一定的分类准确率。

2. 贝叶斯公式

首先给出贝叶斯公式：

换成分类任务的表达式：

二、朴素贝叶斯分类器

朴素贝叶斯分类器（Naive Bayes Classifier）是一种基于贝叶斯定理和特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯分类器的原理基于贝叶斯定理，即根据已知类别的数据来估计特征与类别之间的概率分布，然后使用这些概率来对新样本进行分类。

具体地，设特征向量为 X = (x1, x2, ..., xn)，类别集合为 C = {c1, c2, ..., ck}，我们的目标是计算在给定特征向量 X 的条件下，属于每个类别的概率 P(ci|X)，然后选择具有最大后验概率的类别作为样本的分类结果。

朴素贝叶斯分类器的"朴素"之处在于它假设特征之间相互独立，即：

其中 P(c_i) 是类别 c_i 的先验概率，P(X|c_i) 是在类别 c_i 下特征向量 X 的条件概率，P(X) 是特征向量 X 的边缘概率。由于 P(X) 对所有类别都是相同的，因此可以忽略掉。

基于上述假设，我们可以计算出每个类别的后验概率，并选择具有最大概率的类别作为样本的分类结果。

朴素贝叶斯分类器的优点在于简单、高效，且对小规模数据表现良好；并且在特征之间条件独立的情况下，即使部分特征缺失，也能够进行有效的分类。然而，它也有一个明显的局限性，就是对特征条件独立的假设在实际问题中并不总是成立，因此在面对高维度、相关性较强的数据时，朴素贝叶斯分类器可能表现不佳。

三、简单的案例实现

email文件夹下有两个文件夹ham和spam。ham文件夹下的txt文件为正常邮件；spam文件下的txt文件为垃圾邮件。

完整代码：

# -*- coding: UTF-8 -*-

import numpy as np

import re

import random


#整理词汇表

def createVocabList(dataSet):

vocabSet = set([]) # 创建一个空的不重复列表

for document in dataSet:

vocabSet = vocabSet | set(document) # 取并集

return list(vocabSet)



def setOfWords2Vec(vocabList, inputSet):

returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量

for word in inputSet: #遍历每个词条

if word in vocabList: #如果词条存在于词汇表中，则置1

returnVec[vocabList.index(word)] = 1

else:

print("the word: %s is not in my Vocabulary!" % word)

return returnVec #返回文档向量


#构建词袋模型

def bagOfWords2VecMN(vocabList, inputSet):

returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量

for word in inputSet: # 遍历每个词条

if word in vocabList: # 如果词条存在于词汇表中，则计数加一

returnVec[vocabList.index(word)] += 1

return returnVec # 返回词袋模型



#朴素贝叶斯分类训练函数

def trainNB0(trainMatrix, trainCategory):

numTrainDocs = len(trainMatrix) # 计算训练的文档数目

numWords = len(trainMatrix[0]) # 计算每篇文档的词条数

pAbusive = sum(trainCategory) / float(numTrainDocs) # 文档属于垃圾邮件类的概率

p0Num = np.ones(numWords)

p1Num = np.ones(numWords) # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑

p0Denom = 2.0

p1Denom = 2.0 # 分母初始化为2 ,拉普拉斯平滑

for i in range(numTrainDocs):

if trainCategory[i] == 1: # 统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···

p1Num += trainMatrix[i]

p1Denom += sum(trainMatrix[i])

else: # 统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···

p0Num += trainMatrix[i]

p0Denom += sum(trainMatrix[i])

p1Vect = np.log(p1Num / p1Denom)

p0Vect = np.log(p0Num / p0Denom) #取对数，防止下溢出

return p0Vect, p1Vect, pAbusive # 返回属于正常邮件类的条件概率数组，属于侮辱垃圾邮件类的条件概率数组，文档属于垃圾邮件类的概率




#朴素贝叶斯分类函数

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):

p1=sum(vec2Classify*p1Vec)+np.log(pClass1)

p0=sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)

if p1 > p0:

return 1 #属于正常邮件类

else:

return 0 #属于垃圾邮件类


#提取单词

def textParse(bigString): # 将字符串转换为字符列表

listOfTokens = re.split(r'\W*', bigString) # 将特殊符号作为切分标志进行字符串切分，即非字母、非数字

return [tok.lower() for tok in listOfTokens if len(tok) > 2] # 除了单个字母，例如大写的I，其它单词变成小写


#测试朴素贝叶斯分类器，使用朴素贝叶斯进行交叉验证

def spamTest():

docList = []

classList = []

fullText = []

for i in range(1, 21): # 遍历20个txt文件

wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) # 读取每个垃圾邮件，并字符串转换成字符串列表

docList.append(wordList)

fullText.append(wordList)

classList.append(1) # 标记垃圾邮件，1表示垃圾文件

wordList = textParse(open('email/ham/%d.txt' % i, 'r').read()) # 读取每个非垃圾邮件，并字符串转换成字符串列表

docList.append(wordList)

fullText.append(wordList)

classList.append(0) # 标记正常邮件，0表示正常文件

vocabList = createVocabList(docList) # 创建词汇表，不重复

trainingSet = list(range(50))

testSet = [] # 创建存储训练集的索引值的列表和测试集的索引值的列表

for i in range(10): # 从50个邮件中，随机挑选出40个作为训练集,10个做测试集

randIndex = int(random.uniform(0, len(trainingSet))) # 随机选取索索引值

testSet.append(trainingSet[randIndex]) # 添加测试集的索引值

del (trainingSet[randIndex]) # 在训练集列表中删除添加到测试集的索引值

trainMat = []

trainClasses = [] # 创建训练集矩阵和训练集类别标签系向量

for docIndex in trainingSet: # 遍历训练集

trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) # 将生成的词集模型添加到训练矩阵中

trainClasses.append(classList[docIndex]) # 将类别添加到训练集类别标签系向量中

p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses)) # 训练朴素贝叶斯模型

errorCount = 0 # 错误分类计数

for docIndex in testSet: # 遍历测试集

wordVector = setOfWords2Vec(vocabList, docList[docIndex]) # 测试集的词集模型

if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: # 如果分类错误

errorCount += 1 # 错误计数加1

print("分类错误的测试集：", docList[docIndex])

print('错误率：%.2f%%' % (float(errorCount) / len(testSet) * 100))



if __name__ == '__main__':

spamTest()

createVocabList 函数用于创建词汇表，它接收一个数据集并返回数据集中所有不重复单词的列表。
setOfWords2Vec 函数将输入的文本转换为向量，向量的每个元素表示词汇表中对应单词的出现情况。
bagOfWords2VecMN 函数构建了词袋模型，与 setOfWords2Vec 类似，但它统计了每个单词的出现次数而不是简单地记录是否出现。
trainNB0 函数用于训练朴素贝叶斯分类器，它接收训练数据以及对应的分类标签，计算每个单词在不同分类下的条件概率，并返回相应的概率向量。
cassifyNB 函数用于对新的文本进行分类，它接收一个文本向量以及训练得到的概率向量和类别概率，然后根据朴素贝叶斯分类规则进行分类。
textParse 函数用于将文本解析成单词列表，同时进行了大小写转换和去除长度小于等于2的单词等操作。
spamTest 函数是整个分类器的测试函数，它读取垃圾邮件和正常邮件的数据集，然后进行训练和测试，最后输出分类错误率。

四、改进思路总结

1.如何实现多分类

这部分只有二分类，要想多分类就不能只是0与1这么简单。模型要兼容多分类，可以对结果集利用np.unique(),然后取出值进行分类。特征单个种类分类多，也可以使用这种方法。如果比如身高这些特征符合正态分布，需要用正态分布概率进行计算。

2.如何提高预测准度

2.1、提高训练集数据的质量。基本所有机器学习对训练集的数据要求都很高，贝叶斯更是如此，如果你选取的数据质量不高，没有代表性，抽选随机性不高。对模型影响很大。

2.2、增加训练集的数量。这个非常好理解，我们投硬币，投的次数越多，正面概率越解决1/2。更接近真实值。

2.3、选取特征。我们知道贝叶斯假设是各个特征独立，那么我们选取特征的时候尽量不要有冗余，特征之间相关性不要太大。

m0_74017503

关注

12
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
机器学习贝叶斯分类

1、如何实现多分类。这部分只有二分类，要想多分类就不能只是0与1这么简单。模型要兼容多分类，可以对结果集利用np.unique(),然后取出值进行分类。特征单个种类分类多，也可以使用这种方法。如果比如身高这些特征符合正态分布，需要用正态分布概率进行计算。2、如何提升预测准度。3.1、提高训练集数据的质量。基本所有机器学习对训练集的数据要求都很高，贝叶斯更是如此，如果你选取的数据质量不高，没有代表性，抽选随机性不高。对模型影响很大。3.2、增加训练集的数量。
复制链接

扫一扫