机器学习——贝叶斯分类

m0_74238225

于 2024-05-28 17:07:08 发布

阅读量721

点赞数 7

文章标签：机器学习分类人工智能

本文链接：https://blog.csdn.net/m0_74238225/article/details/139271914

版权

一、贝叶斯分类
1.概率论知识
条件概率的计算公式如下：

P(white|B)=P(white and B)/P(B)

条件：所有特征之间是条件独立。也就是“朴素”。

朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单，但有时会牺牲一定的分类准确率。

2. 贝叶斯公式

首先给出贝叶斯公式：

换成分类任务的表达式：

二、朴素贝叶斯分类器
朴素贝叶斯分类器（Naive Bayes Classifier）是一种基于贝叶斯定理和特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯分类器的原理基于贝叶斯定理，即根据已知类别的数据来估计特征与类别之间的概率分布，然后使用这些概率来对新样本进行分类。

具体地，设特征向量为 X = (x1, x2, ..., xn)，类别集合为 C = {c1, c2, ..., ck}，我们的目标是计算在给定特征向量 X 的条件下，属于每个类别的概率 P(ci|X)，然后选择具有最大后验概率的类别作为样本的分类结果。

朴素贝叶斯分类器的"朴素"之处在于它假设特征之间相互独立，即：

其中 P(c_i) 是类别 c_i 的先验概率，P(X|c_i) 是在类别 c_i 下特征向量 X 的条件概率，P(X) 是特征向量 X 的边缘概率。由于 P(X) 对所有类别都是相同的，因此可以忽略掉。

基于上述假设，我们可以计算出每个类别的后验概率，并选择具有最大概率的类别作为样本的分类结果。

朴素贝叶斯分类器的优点在于简单、高效，且对小规模数据表现良好；并且在特征之间条件独立的情况下，即使部分特征缺失，也能够进行有效的分类。然而，它也有一个明显的局限性，就是对特征条件独立的假设在实际问题中并不总是成立，因此在面对高维度、相关性较强的数据时，朴素贝叶斯分类器可能表现不佳。

三、简单的案例实现
email文件夹下有两个文件夹ham和spam。ham文件夹下的txt文件为正常邮件；spam文件下的txt文件为垃圾邮件。

完整代码：
1.

# -*- coding: UTF-8 -*-
 
import numpy as np
 
import re
 
import random
 
 
#整理词汇表
 
def createVocabList(dataSet):
 
vocabSet = set([]) # 创建一个空的不重复列表
 
for document in dataSet:
 
vocabSet = vocabSet | set(document) # 取并集
 
return list(vocabSet)
 
 
 
def setOfWords2Vec(vocabList, inputSet):
 
returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量
 
for word in inputSet: #遍历每个词条
 
if word in vocabList: #如果词条存在于词汇表中，则置1
 
returnVec[vocabList.index(word)] = 1
 
else:
 
print("the word: %s is not in my Vocabulary!" % word)
 
return returnVec #返回文档向量
 
 
#构建词袋模型
 
def bagOfWords2VecMN(vocabList, inputSet):
 
returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量
 
for word in inputSet: # 遍历每个词条
 
if word in vocabList: # 如果词条存在于词汇表中，则计数加一
 
returnVec[vocabList.index(word)] += 1
 
return returnVec # 返回词袋模型
 
 
 
#朴素贝叶斯分类训练函数
 
def trainNB0(trainMatrix, trainCategory):
 
numTrainDocs = len(trainMatrix) # 计算训练的文档数目
 
numWords = len(trainMatrix[0]) # 计算每篇文档的词条数
 
pAbusive = sum(trainCategory) / float(numTrainDocs) # 文档属于垃圾邮件类的概率
 
p0Num = np.ones(numWords)
 
p1Num = np.ones(numWords) # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
 
p0Denom = 2.0
 
p1Denom = 2.0 # 分母初始化为2 ,拉普拉斯平滑
 
for i in range(numTrainDocs):
 
if trainCategory[i] == 1: # 统计属于侮辱类的条件概率所需的数据，即P(w0|1),P(w1|1),P(w2|1)···
 
p1Num += trainMatrix[i]
 
p1Denom += sum(trainMatrix[i])
 
else: # 统计属于非侮辱类的条件概率所需的数据，即P(w0|0),P(w1|0),P(w2|0)···
 
p0Num += trainMatrix[i]
 
p0Denom += sum(trainMatrix[i])
 
p1Vect = np.log(p1Num / p1Denom)
 
p0Vect = np.log(p0Num / p0Denom) #取对数，防止下溢出
 
return p0Vect, p1Vect, pAbusive # 返回属于正常邮件类的条件概率数组，属于侮辱垃圾邮件类的条件概率数组，文档属于垃圾邮件类的概率
 
 
 
 
#朴素贝叶斯分类函数
 
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
 
p1=sum(vec2Classify*p1Vec)+np.log(pClass1)
 
p0=sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)
 
if p1 > p0:
 
return 1 #属于正常邮件类
 
else:
 
return 0 #属于垃圾邮件类
 
 
#提取单词
 
def textParse(bigString): # 将字符串转换为字符列表
 
listOfTokens = re.split(r'\W*', bigString) # 将特殊符号作为切分标志进行字符串切分，即非字母、非数字
 
return [tok.lower() for tok in listOfTokens if len(tok) > 2] # 除了单个字母，例如大写的I，其它单词变成小写
 
 
#测试朴素贝叶斯分类器，使用朴素贝叶斯进行交叉验证
 
def spamTest():
 
docList = []
 
classList = []
 
fullText = []
 
for i in range(1, 21): # 遍历20个txt文件
 
wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) # 读取每个垃圾邮件，并字符串转换成字符串列表
 
docList.append(wordList)
 
fullText.append(wordList)
 
classList.append(1) # 标记垃圾邮件，1表示垃圾文件
 
wordList = textParse(open('email/ham/%d.txt' % i, 'r').read()) # 读取每个非垃圾邮件，并字符串转换成字符串列表
 
docList.append(wordList)
 
fullText.append(wordList)
 
classList.append(0) # 标记正常邮件，0表示正常文件
 
vocabList = createVocabList(docList) # 创建词汇表，不重复
 
trainingSet = list(range(50))
 
testSet = [] # 创建存储训练集的索引值的列表和测试集的索引值的列表
 
for i in range(10): # 从50个邮件中，随机挑选出40个作为训练集,10个做测试集
 
randIndex = int(random.uniform(0, len(trainingSet))) # 随机选取索索引值
 
testSet.append(trainingSet[randIndex]) # 添加测试集的索引值
 
del (trainingSet[randIndex]) # 在训练集列表中删除添加到测试集的索引值
 
trainMat = []
 
trainClasses = [] # 创建训练集矩阵和训练集类别标签系向量
 
for docIndex in trainingSet: # 遍历训练集
 
trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) # 将生成的词集模型添加到训练矩阵中
 
trainClasses.append(classList[docIndex]) # 将类别添加到训练集类别标签系向量中
 
p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses)) # 训练朴素贝叶斯模型
 
errorCount = 0 # 错误分类计数
 
for docIndex in testSet: # 遍历测试集
 
wordVector = setOfWords2Vec(vocabList, docList[docIndex]) # 测试集的词集模型
 
if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: # 如果分类错误
 
errorCount += 1 # 错误计数加1
 
print("分类错误的测试集：", docList[docIndex])
 
print('错误率：%.2f%%' % (float(errorCount) / len(testSet) * 100))
 
 
 
if __name__ == '__main__':
 
spamTest()

createVocabList 函数用于创建词汇表，它接收一个数据集并返回数据集中所有不重复单词的列表。
setOfWords2Vec 函数将输入的文本转换为向量，向量的每个元素表示词汇表中对应单词的出现情况。
bagOfWords2VecMN 函数构建了词袋模型，与 setOfWords2Vec 类似，但它统计了每个单词的出现次数而不是简单地记录是否出现。
trainNB0 函数用于训练朴素贝叶斯分类器，它接收训练数据以及对应的分类标签，计算每个单词在不同分类下的条件概率，并返回相应的概率向量。
cassifyNB 函数用于对新的文本进行分类，它接收一个文本向量以及训练得到的概率向量和类别概率，然后根据朴素贝叶斯分类规则进行分类。
textParse 函数用于将文本解析成单词列表，同时进行了大小写转换和去除长度小于等于2的单词等操作。
spamTest 函数是整个分类器的测试函数，它读取垃圾邮件和正常邮件的数据集，然后进行训练和测试，最后输出分类错误率。

四、改进思路总结
1.如何实现多分类
这部分只有二分类，要想多分类就不能只是0与1这么简单。模型要兼容多分类，可以对结果集利用np.unique(),然后取出值进行分类。特征单个种类分类多，也可以使用这种方法。如果比如身高这些特征符合正态分布，需要用正态分布概率进行计算。

2.如何提高预测准度
2.1、提高训练集数据的质量。基本所有机器学习对训练集的数据要求都很高，贝叶斯更是如此，如果你选取的数据质量不高，没有代表性，抽选随机性不高。对模型影响很大。

2.2、增加训练集的数量。这个非常好理解，我们投硬币，投的次数越多，正面概率越解决1/2。更接近真实值。

2.3、选取特征。我们知道贝叶斯假设是各个特征独立，那么我们选取特征的时候尽量不要有冗余，特征之间相关性不要太大。

m0_74238225

关注

7
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
机器学习——贝叶斯分类

然而，它也有一个明显的局限性，就是对特征条件独立的假设在实际问题中并不总是成立，因此在面对高维度、相关性较强的数据时，朴素贝叶斯分类器可能表现不佳。具体地，设特征向量为 X = (x1, x2, ..., xn)，类别集合为 C = {c1, c2, ..., ck}，我们的目标是计算在给定特征向量 X 的条件下，属于每个类别的概率 P(ci|X)，然后选择具有最大后验概率的类别作为样本的分类结果。基于上述假设，我们可以计算出每个类别的后验概率，并选择具有最大概率的类别作为样本的分类结果。
复制链接

扫一扫