机器学习 朴素贝叶斯

目录

一、贝叶斯定理

二、朴素贝叶斯算法

1、朴素贝叶斯介绍

2、朴素贝叶斯原理

三、朴素贝叶斯算法实现

四、总结


一、贝叶斯定理

 贝叶斯定理是概率论中的一个重要定理,用于计算在给定一些先验知识的情况下,发生某个事件的概率。通过贝叶斯定理,我们可以根据已有的数据和先验知识来更新对未知事件的概率估计,从而进行推断和预测。这种基于贝叶斯定理的方法被称为贝叶斯推断。

贝叶斯定理可以表示为:

P(A|B) = (P(B|A) * P(A)) / P(B)

        P(A|B)表示在事件B发生的条件下,事件A发生的概率;P(B|A)表示在事件A发生的条件下,事件B发生的概率;P(A)和P(B)分别表示事件A和事件B发生的概率。

        例如,P(A|B) 表示在早上睡过头的情况下(B),上班迟到(A)的概率,A的概率就是求解的值,即30天里早上睡过头且上班迟到的天数 / 30天里早上睡过头的总天数(因为不是每个睡过头的日子都一定会迟到)。

        P(B|A) 与P(A|B)正相反,表示上班迟(A)到了,多大概率是由于早上睡过头(B)造成的,即30天里早上睡过头且上班迟到的天数 / 30天里上班迟到的总天数(因为迟到不一定都是由睡过头引起的)。

        P(A) 代表上班迟到(A)的总概率,就是30天里上班迟到的总天数 / 30天。

        P(B) 代表早上睡过头(B)的总概率,就是30天里早上睡过头的总天数 / 30天。

        一旦知道了P(B|A)、P(A) 、P(B)这三个概率,根据贝叶斯公式就能得到我们想知道的P(A|B),也即在早上睡过头的情况下,上班会迟到的概率。

        贝叶斯定理的核心思想是,通过已知的先验概率P(A)和条件概率P(B|A),可以计算出在给定条件B下,事件A发生的概率P(A|B)。在机器学习中,贝叶斯定理可以用于分类问题、参数估计、模型选择等方面。

二、朴素贝叶斯算法

1、朴素贝叶斯介绍

        朴素贝叶斯是一种基于贝叶斯定理的分类算法。它的"朴素"之处在于假设特征之间是相互独立的,即每个特征对于分类的贡献是独立的。朴素贝叶斯算法的主要思想是通过已知的训练样本集,根据特征之间的条件概率来估计待分类样本属于某个类别的概率。朴素贝叶斯算法简单、高效、易于实现和理解,对小规模的数据集表现良好,并且对缺失数据不敏感。相对的,朴素贝叶斯算法过于简单的假设可能会导致模型的性能下降。      

        朴素贝叶斯的工作流程大致可以分为以下四点:

1.准备训练样本集,包括已知类别的样本和它们的特征。

2.计算每个类别在训练样本集中出现的概率,即先验概率。

3.对于待分类的样本,计算它属于每个类别的概率。这里使用了条件概率,通过计算每个特征在给定类别下出现的概率。
4.根据计算得到的概率,选择具有最高概率的类别作为待分类样本的类别。

2、朴素贝叶斯原理

        为使模型容易求解,朴素贝叶斯假定各特征是相互独立的,由于这是一个较强的假设,朴素贝叶斯也由此得名,这个假设使得朴素贝叶斯更加简单,但有时会牺牲一定的分类准确率。

        该假设可以简化条件概率的求解:

将贝叶斯公式代入:

其中 X(i)代表某特征,Ck代表某类别,n为特征数。

三、朴素贝叶斯算法实现

        使用朴素贝叶斯算法进行邮件文本分类是朴素贝叶斯算法的常见应用之一,特别是垃圾邮件过滤。

        主要有以下几个步骤步骤:

  1. 数据准备:收集一组已标记为垃圾邮件和非垃圾邮件的样本数据,将每封邮件转化为特征向量表示,比如使用词袋模型将邮件转化为词频向量。

  2. 特征提取:从样本数据中提取出特征,这些特征可以是词频、TF-IDF等。常用的方法是使用特征选择算法,如卡方检验或信息增益,来选择最相关的特征。

  3. 训练模型:使用已标记的样本数据来训练朴素贝叶斯分类器。在训练过程中,计算每个特征在各个类别中的条件概率。

  4. 分类预测:对于新的未知邮件,将其转化为特征向量,并使用训练好的朴素贝叶斯分类器来预测其类别。计算新邮件在各个类别下的后验概率,并选择具有最高后验概率的类别作为预测结果。

  5. 模型评估:使用测试数据集评估模型的性能,计算分类准确率、精确率、召回率等指标。可以通过调整特征提取方法、特征选择算法、平滑技术等来优化模型性能。

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

# 读取数据集
data = pd.read_csv('data.csv')

# 分割特征和标签
X = data['text']
y = data['label']

# 将文本特征转换为向量表示
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(X)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化朴素贝叶斯分类器
classifier = MultinomialNB()

# 训练模型
classifier.fit(X_train, y_train)

# 预测测试集
y_pred = classifier.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)

四、总结

        朴素贝叶斯算法的主要思想是通过已知的训练样本集,根据特征之间的条件概率来估计待分类样本属于某个类别的概率。具体来说,它通过计算每个类别的先验概率和每个特征在各个类别下的条件概率,然后利用贝叶斯定理计算后验概率,最终选择具有最大后验概率的类别作为分类结果。朴素贝叶斯算法在实际应用中有很多用途,比如文本分类,垃圾文件过滤,金融风险评估等各种广泛的各种分类问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值