一、贝叶斯分类
1.概率论知识
条件概率的计算公式如下:
P(white|B)=P(white and B)/P(B)
条件:所有特征之间是条件独立。 也就是“朴素”。
朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。
2. 贝叶斯公式
首先给出贝叶斯公式:
换成分类任务的表达式:
二、朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes Classifier)是一种基于贝叶斯定理和特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。
朴素贝叶斯分类器的原理基于贝叶斯定理,即根据已知类别的数据来估计特征与类别之间的概率分布,然后使用这些概率来对新样本进行分类。
具体地,设特征向量为 X = (x1, x2, ..., xn),类别集合为 C = {c1, c2, ..., ck},我们的目标是计算在给定特征向量 X 的条件下,属于每个类别的概率 P(ci|X),然后选择具有最大后验概率的类别作为样本的分类结果。
朴素贝叶斯分类器的"朴素"之处在于它假设特征之间相互独立,即:
其中 P(c_i) 是类别 c_i 的先验概率,P(X|c_i) 是在类别 c_i 下特征向量 X 的条件概率,P(X) 是特征向量 X 的边缘概率。由于 P(X) 对所有类别都是相同的,因此可以忽略掉。
基于上述假设,我们可以计算出每个类别的后验概率,并选择具有最大概率的类别作为样本的分类结果。
朴素贝叶斯分类器的优点在于简单、高效,且对小规模数据表现良好;并且在特征之间条件独立的情况下,即使部分特征缺失,也能够进行有效的分类。然而,它也有一个明显的局限性,就是对特征条件独立的假设在实际问题中并不总是成立,因此在面对高维度、相关性较强的数据时,朴素贝叶斯分类器可能表现不佳。
三、简单的案例实现
email文件夹下有两个文件夹ham和spam。ham文件夹下的txt文件为正常邮件;spam文件下的txt文件为垃圾邮件。
完整代码:
-
# -*- coding: UTF-8 -*- import numpy as np import re import random #整理词汇表 def createVocabList(dataSet): vocabSet = set([]) # 创建一个空的不重复列表 for document in dataSet: vocabSet = vocabSet | set(document) # 取并集 return list(vocabSet) def setOfWords2Vec(vocabList, inputSet): returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量 for word in inputSet: #遍历每个词条 if word in vocabList: #如果词条存在于词汇表中,则置1 returnVec[vocabList.index(word)] = 1 else: print("the word: %s is not in my Vocabulary!" % word) return returnVec #返回文档向量 #构建词袋模型 def bagOfWords2VecMN(vocabList, inputSet): returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量 for word in inputSet: # 遍历每个词条 if word in vocabList: # 如果词条存在于词汇表中,则计数加一 returnVec[vocabList.index(word)] += 1 return returnVec # 返回词袋模型 #朴素贝叶斯分类训练函数 def trainNB0(trainMatrix, trainCategory): numTrainDocs = len(trainMatrix) # 计算训练的文档数目 numWords = len(trainMatrix[0]) # 计算每篇文档的词条数 pAbusive = sum(trainCategory) / float(numTrainDocs) # 文档属于垃圾邮件类的概率 p0Num = np.ones(numWords) p1Num = np.ones(numWords) # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑 p0Denom = 2.0 p1Denom = 2.0 # 分母初始化为2 ,拉普拉斯平滑 for i in range(numTrainDocs): if trainCategory[i] == 1: # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)··· p1Num += trainMatrix[i] p1Denom += sum(trainMatrix[i]) else: # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)··· p0Num += trainMatrix[i] p0Denom += sum(trainMatrix[i]) p1Vect = np.log(p1Num / p1Denom) p0Vect = np.log(p0Num / p0Denom) #取对数,防止下溢出 return p0Vect, p1Vect, pAbusive # 返回属于正常邮件类的条件概率数组,属于侮辱垃圾邮件类的条件概率数组,文档属于垃圾邮件类的概率 #朴素贝叶斯分类函数 def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1): p1=sum(vec2Classify*p1Vec)+np.log(pClass1) p0=sum(vec2Classify*p0Vec)+np.log(1.0-pClass1) if p1 > p0: return 1 #属于正常邮件类 else: return 0 #属于垃圾邮件类 #提取单词 def textParse(bigString): # 将字符串转换为字符列表 listOfTokens = re.split(r'\W*', bigString) # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字 return [tok.lower() for tok in listOfTokens if len(tok) > 2] # 除了单个字母,例如大写的I,其它单词变成小写 #测试朴素贝叶斯分类器,使用朴素贝叶斯进行交叉验证 def spamTest(): docList = [] classList = [] fullText = [] for i in range(1, 21): # 遍历20个txt文件 wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) # 读取每个垃圾邮件,并字符串转换成字符串列表 docList.append(wordList) fullText.append(wordList) classList.append(1) # 标记垃圾邮件,1表示垃圾文件 wordList = textParse(open('email/ham/%d.txt' % i, 'r').read()) # 读取每个非垃圾邮件,并字符串转换成字符串列表 docList.append(wordList) fullText.append(wordList) classList.append(0) # 标记正常邮件,0表示正常文件 vocabList = createVocabList(docList) # 创建词汇表,不重复 trainingSet = list(range(50)) testSet = [] # 创建存储训练集的索引值的列表和测试集的索引值的列表 for i in range(10): # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集 randIndex = int(random.uniform(0, len(trainingSet))) # 随机选取索索引值 testSet.append(trainingSet[randIndex]) # 添加测试集的索引值 del (trainingSet[randIndex]) # 在训练集列表中删除添加到测试集的索引值 trainMat = [] trainClasses = [] # 创建训练集矩阵和训练集类别标签系向量 for docIndex in trainingSet: # 遍历训练集 trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) # 将生成的词集模型添加到训练矩阵中 trainClasses.append(classList[docIndex]) # 将类别添加到训练集类别标签系向量中 p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses)) # 训练朴素贝叶斯模型 errorCount = 0 # 错误分类计数 for docIndex in testSet: # 遍历测试集 wordVector = setOfWords2Vec(vocabList, docList[docIndex]) # 测试集的词集模型 if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: # 如果分类错误 errorCount += 1 # 错误计数加1 print("分类错误的测试集:", docList[docIndex]) print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100)) if __name__ == '__main__': spamTest()
createVocabList 函数用于创建词汇表,它接收一个数据集并返回数据集中所有不重复单词的列表。
setOfWords2Vec 函数将输入的文本转换为向量,向量的每个元素表示词汇表中对应单词的出现情况。
bagOfWords2VecMN 函数构建了词袋模型,与 setOfWords2Vec 类似,但它统计了每个单词的出现次数而不是简单地记录是否出现。
trainNB0 函数用于训练朴素贝叶斯分类器,它接收训练数据以及对应的分类标签,计算每个单词在不同分类下的条件概率,并返回相应的概率向量。
cassifyNB 函数用于对新的文本进行分类,它接收一个文本向量以及训练得到的概率向量和类别概率,然后根据朴素贝叶斯分类规则进行分类。
textParse 函数用于将文本解析成单词列表,同时进行了大小写转换和去除长度小于等于2的单词等操作。
spamTest 函数是整个分类器的测试函数,它读取垃圾邮件和正常邮件的数据集,然后进行训练和测试,最后输出分类错误率。
四、改进思路总结
1.如何实现多分类
这部分只有二分类,要想多分类就不能只是0与1这么简单。模型要兼容多分类,可以对结果集利用np.unique(),然后取出值进行分类。特征单个种类分类多,也可以使用这种方法。如果比如身高这些特征符合正态分布,需要用正态分布概率进行计算。
2.如何提高预测准度
2.1、提高训练集数据的质量。基本所有机器学习对训练集的数据要求都很高,贝叶斯更是如此,如果你选取的数据质量不高,没有代表性,抽选随机性不高。对模型影响很大。
2.2、增加训练集的数量。这个非常好理解,我们投硬币,投的次数越多,正面概率越解决1/2。更接近真实值。
2.3、选取特征。我们知道贝叶斯假设是各个特征独立,那么我们选取特征的时候尽量不要有冗余,特征之间相关性不要太大。