机器学习——贝叶斯分类

一、贝叶斯分类
1.概率论知识
 条件概率的计算公式如下:

P(white|B)=P(white and B)/P(B)

 条件:所有特征之间是条件独立。 也就是“朴素”。

朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。

2. 贝叶斯公式
 

首先给出贝叶斯公式

换成分类任务的表达式:

二、朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes Classifier)是一种基于贝叶斯定理和特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯分类器的原理基于贝叶斯定理,即根据已知类别的数据来估计特征与类别之间的概率分布,然后使用这些概率来对新样本进行分类。

具体地,设特征向量为 X = (x1, x2, ..., xn),类别集合为 C = {c1, c2, ..., ck},我们的目标是计算在给定特征向量 X 的条件下,属于每个类别的概率 P(ci|X),然后选择具有最大后验概率的类别作为样本的分类结果。

朴素贝叶斯分类器的"朴素"之处在于它假设特征之间相互独立,即:


 

其中 P(c_i) 是类别 c_i 的先验概率,P(X|c_i) 是在类别 c_i 下特征向量 X 的条件概率,P(X) 是特征向量 X 的边缘概率。由于 P(X) 对所有类别都是相同的,因此可以忽略掉。

基于上述假设,我们可以计算出每个类别的后验概率,并选择具有最大概率的类别作为样本的分类结果。

朴素贝叶斯分类器的优点在于简单、高效,且对小规模数据表现良好;并且在特征之间条件独立的情况下,即使部分特征缺失,也能够进行有效的分类。然而,它也有一个明显的局限性,就是对特征条件独立的假设在实际问题中并不总是成立,因此在面对高维度、相关性较强的数据时,朴素贝叶斯分类器可能表现不佳。

三、简单的案例实现
email文件夹下有两个文件夹ham和spam。ham文件夹下的txt文件为正常邮件;spam文件下的txt文件为垃圾邮件。

完整代码:
1.

# -*- coding: UTF-8 -*-
 
import numpy as np
 
import re
 
import random
 
 
#整理词汇表
 
def createVocabList(dataSet):
 
vocabSet = set([]) # 创建一个空的不重复列表
 
for document in dataSet:
 
vocabSet = vocabSet | set(document) # 取并集
 
return list(vocabSet)
 
 
 
def setOfWords2Vec(vocabList, inputSet):
 
returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量
 
for word in inputSet: #遍历每个词条
 
if word in vocabList: #如果词条存在于词汇表中,则置1
 
returnVec[vocabList.index(word)] = 1
 
else:
 
print("the word: %s is not in my Vocabulary!" % word)
 
return returnVec #返回文档向量
 
 
#构建词袋模型
 
def bagOfWords2VecMN(vocabList, inputSet):
 
returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量
 
for word in inputSet: # 遍历每个词条
 
if word in vocabList: # 如果词条存在于词汇表中,则计数加一
 
returnVec[vocabList.index(word)] += 1
 
return returnVec # 返回词袋模型
 
 
 
#朴素贝叶斯分类训练函数
 
def trainNB0(trainMatrix, trainCategory):
 
numTrainDocs = len(trainMatrix) # 计算训练的文档数目
 
numWords = len(trainMatrix[0]) # 计算每篇文档的词条数
 
pAbusive = sum(trainCategory) / float(numTrainDocs) # 文档属于垃圾邮件类的概率
 
p0Num = np.ones(numWords)
 
p1Num = np.ones(numWords) # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
 
p0Denom = 2.0
 
p1Denom = 2.0 # 分母初始化为2 ,拉普拉斯平滑
 
for i in range(numTrainDocs):
 
if trainCategory[i] == 1: # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
 
p1Num += trainMatrix[i]
 
p1Denom += sum(trainMatrix[i])
 
else: # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
 
p0Num += trainMatrix[i]
 
p0Denom += sum(trainMatrix[i])
 
p1Vect = np.log(p1Num / p1Denom)
 
p0Vect = np.log(p0Num / p0Denom) #取对数,防止下溢出
 
return p0Vect, p1Vect, pAbusive # 返回属于正常邮件类的条件概率数组,属于侮辱垃圾邮件类的条件概率数组,文档属于垃圾邮件类的概率
 
 
 
 
#朴素贝叶斯分类函数
 
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
 
p1=sum(vec2Classify*p1Vec)+np.log(pClass1)
 
p0=sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)
 
if p1 > p0:
 
return 1 #属于正常邮件类
 
else:
 
return 0 #属于垃圾邮件类
 
 
#提取单词
 
def textParse(bigString): # 将字符串转换为字符列表
 
listOfTokens = re.split(r'\W*', bigString) # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
 
return [tok.lower() for tok in listOfTokens if len(tok) > 2] # 除了单个字母,例如大写的I,其它单词变成小写
 
 
#测试朴素贝叶斯分类器,使用朴素贝叶斯进行交叉验证
 
def spamTest():
 
docList = []
 
classList = []
 
fullText = []
 
for i in range(1, 21): # 遍历20个txt文件
 
wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) # 读取每个垃圾邮件,并字符串转换成字符串列表
 
docList.append(wordList)
 
fullText.append(wordList)
 
classList.append(1) # 标记垃圾邮件,1表示垃圾文件
 
wordList = textParse(open('email/ham/%d.txt' % i, 'r').read()) # 读取每个非垃圾邮件,并字符串转换成字符串列表
 
docList.append(wordList)
 
fullText.append(wordList)
 
classList.append(0) # 标记正常邮件,0表示正常文件
 
vocabList = createVocabList(docList) # 创建词汇表,不重复
 
trainingSet = list(range(50))
 
testSet = [] # 创建存储训练集的索引值的列表和测试集的索引值的列表
 
for i in range(10): # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集
 
randIndex = int(random.uniform(0, len(trainingSet))) # 随机选取索索引值
 
testSet.append(trainingSet[randIndex]) # 添加测试集的索引值
 
del (trainingSet[randIndex]) # 在训练集列表中删除添加到测试集的索引值
 
trainMat = []
 
trainClasses = [] # 创建训练集矩阵和训练集类别标签系向量
 
for docIndex in trainingSet: # 遍历训练集
 
trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) # 将生成的词集模型添加到训练矩阵中
 
trainClasses.append(classList[docIndex]) # 将类别添加到训练集类别标签系向量中
 
p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses)) # 训练朴素贝叶斯模型
 
errorCount = 0 # 错误分类计数
 
for docIndex in testSet: # 遍历测试集
 
wordVector = setOfWords2Vec(vocabList, docList[docIndex]) # 测试集的词集模型
 
if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: # 如果分类错误
 
errorCount += 1 # 错误计数加1
 
print("分类错误的测试集:", docList[docIndex])
 
print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))
 
 
 
if __name__ == '__main__':
 
spamTest()

createVocabList 函数用于创建词汇表,它接收一个数据集并返回数据集中所有不重复单词的列表。
setOfWords2Vec 函数将输入的文本转换为向量,向量的每个元素表示词汇表中对应单词的出现情况。
bagOfWords2VecMN 函数构建了词袋模型,与 setOfWords2Vec 类似,但它统计了每个单词的出现次数而不是简单地记录是否出现。
trainNB0 函数用于训练朴素贝叶斯分类器,它接收训练数据以及对应的分类标签,计算每个单词在不同分类下的条件概率,并返回相应的概率向量。
cassifyNB 函数用于对新的文本进行分类,它接收一个文本向量以及训练得到的概率向量和类别概率,然后根据朴素贝叶斯分类规则进行分类。
textParse 函数用于将文本解析成单词列表,同时进行了大小写转换和去除长度小于等于2的单词等操作。
spamTest 函数是整个分类器的测试函数,它读取垃圾邮件和正常邮件的数据集,然后进行训练和测试,最后输出分类错误率。

四、改进思路总结
1.如何实现多分类
这部分只有二分类,要想多分类就不能只是0与1这么简单。模型要兼容多分类,可以对结果集利用np.unique(),然后取出值进行分类。特征单个种类分类多,也可以使用这种方法。如果比如身高这些特征符合正态分布,需要用正态分布概率进行计算。

2.如何提高预测准度
2.1、提高训练集数据的质量。基本所有机器学习对训练集的数据要求都很高,贝叶斯更是如此,如果你选取的数据质量不高,没有代表性,抽选随机性不高。对模型影响很大。

2.2、增加训练集的数量。这个非常好理解,我们投硬币,投的次数越多,正面概率越解决1/2。更接近真实值。

2.3、选取特征。我们知道贝叶斯假设是各个特征独立,那么我们选取特征的时候尽量不要有冗余,特征之间相关性不要太大。

  • 7
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值