机器学习五———垃圾分类

HangJiuYi

已于 2023-11-20 19:30:10 修改

阅读量270

点赞数

文章标签：机器学习分类人工智能

于 2023-11-20 19:29:28 首次发布

本文链接：https://blog.csdn.net/HangJiuYi/article/details/134516604

版权

朴素贝叶斯的定义

朴素贝叶斯（Naive Bayes）是一种基于贝叶斯定理的分类算法。它是一种简单但有效的分类方法，尤其在文本分类和垃圾邮件过滤等应用中广泛使用。

贝叶斯定理是基于条件概率的一个定理，它描述了在已知先验信息的情况下，如何更新概率估计。朴素贝叶斯算法的“朴素”之处在于它假设特征之间是相互独立的，即给定类别的情况下，特征之间没有相互关联。尽管这个假设在实际情况中往往并不成立，但在很多情况下，朴素贝叶斯仍然表现出色，特别是在高维度的数据集中。

算法的基本思想是通过训练阶段学习先验概率和条件概率，然后在预测阶段使用这些概率来对新样本进行分类。在文本分类中，朴素贝叶斯可以用于判断一段文本属于哪个类别，比如判断一封电子邮件是垃圾邮件还是正常邮件。

数学公式：

实验步骤

1.数据准备：

收集带有标记的数据集，该数据集包含了已经分类为垃圾邮件和非垃圾邮件的样本。每个样本都需要表示为特征向量，这些特征可以是词语、短语或其他文本相关的属性。

2.文本预处理：

对文本数据进行预处理，包括分词、去除停用词、转换为小写等操作。这些步骤有助于简化特征向量的表示，并提高分类的效果。

3.特征提取：

将文本数据转换为特征向量。可以使用词袋模型（Bag of Words）或 TF-IDF（Term Frequency-Inverse Document Frequency）等方法来表示文本特征。

4.训练模型：

使用训练集来学习先验概率和条件概率。计算每个类别的先验概率 \(P(C_k)\) 和每个特征在给定类别下的条件概率 \(P(x_i | C_k)\)。这通常涉及到计算每个词语在垃圾邮件和非垃圾邮件中的出现概率。

5.预测：

对于新的未标记邮件，将其表示为特征向量，并使用贝叶斯定理计算它属于每个类别的后验概率。最终选择具有最高后验概率的类别作为预测结果。

6.评估模型性能：

使用测试集评估模型的性能，通常使用准确率、精确率、召回率等指标来衡量分类器的效果。

7.调整模型参数：

根据性能评估的结果，可能需要调整模型的参数或改进预处理步骤，以提高分类的准确性。

实战代码

1.导入库：

import os
import random
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

2.定义函数read_emails：

def read_emails(folder):
    emails = []
    labels = []
    for label in ['ham', 'spam']:
        folder_path = os.path.join(folder, label)
        for filename in os.listdir(folder_path):
            with open(os.path.join(folder_path, filename), 'r', encoding='utf-8', errors='ignore') as file:
                content = file.read()
                emails.append(content)
                labels.append(label)
    return emails, labels

该函数用于读取文件夹中的邮件数据，返回邮件内容和对应的标签。邮件数据存储在两个子文件夹（'ham'和'spam'）中，分别代表非垃圾邮件和垃圾邮件。

3.读取邮件数据：

folder_path = 'email'
emails, labels = read_emails(folder_path)

使用上述定义的read_emails函数读取邮件数据，将邮件内容和标签分别存储在emails和labels中。

4.划分数据集:

X_train, X_test, y_train, y_test = train_test_split(emails, labels, test_size=0.2, random_state=42)

使用train_test_split函数将数据集划分为训练集和测试集，其中80%用于训练，20%用于测试。

5.文本向量化:

vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

使用CountVectorizer将文本数据转换为特征向量。训练集和测试集分别进行向量化。

6.创建并训练朴素贝叶斯分类器:

classifier = MultinomialNB()
classifier.fit(X_train_vec, y_train)

创建Multinomial Naive Bayes分类器，使用训练集进行训练。

7.预测与评估：

y_pred = classifier.predict(X_test_vec)
accuracy = metrics.accuracy_score(y_test, y_pred)
print(f'准确率: {accuracy:.2%}')

使用训练好的模型对测试集进行预测，并计算准确率。

8.输出部分测试集的预测结果：

print("部分测试集的预测结果:")
for i in range(5):
    rand_index = random.randint(0, len(X_test)-1)
    print(f"实际标签: {y_test[rand_index]}, 预测标签: {y_pred[rand_index]}")

随机选择5个样本，输出它们的实际标签和模型的预测标签。

9.输出结果：

10完整代码：

import os
import random
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

# 读取文件夹中的邮件数据
def read_emails(folder):
    emails = []
    labels = []
    for label in ['ham', 'spam']:
        folder_path = os.path.join(folder, label)
        for filename in os.listdir(folder_path):
            with open(os.path.join(folder_path, filename), 'r', encoding='utf-8', errors='ignore') as file:
                content = file.read()
                emails.append(content)
                labels.append(label)
    return emails, labels

# 读取邮件数据
folder_path = 'email'
emails, labels = read_emails(folder_path)

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(emails, labels, test_size=0.2, random_state=42)

# 将文本数据转换为特征向量
vectorizer = CountVectorizer()
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# 创建并训练朴素贝叶斯分类器
classifier = MultinomialNB()
classifier.fit(X_train_vec, y_train)

# 预测测试集
y_pred = classifier.predict(X_test_vec)

# 计算准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print(f'准确率: {accuracy:.2%}')

# 输出部分测试集的预测结果
print("部分测试集的预测结果:")
for i in range(5):
    rand_index = random.randint(0, len(X_test)-1)
    print(f"实际标签: {y_test[rand_index]}, 预测标签: {y_pred[rand_index]}")