Python实现基于朴素贝叶斯的垃圾邮件分类

听说朴素贝叶斯在垃圾邮件分类的应用中效果很好,寻思朴素贝叶斯容易实现,就用python写了一个朴素贝叶斯模型下的垃圾邮件分类。在400封邮件(正常邮件与垃圾邮件各一半)的测试集中测试结果为分类准确率95.15%,在仅仅统计词频计算概率的情况下,分类结果还是相当不错的。

实现代码及数据集下载

1、准备工作
python3.4开发环境;
结巴分词工具:https://github.com/fxsjy/jieba

2、贝叶斯公式
我们要做的是计算在已知词向量 w=(w1,w2,...,wn) 的条件下求包含该词向量邮件是否为垃圾邮件的概率,即求:

P(s|w),w=(w1,w2,...,wn)

其中, s 表示分类为垃圾邮件
根据贝叶斯公式和全概率公式,
P(s|w1,w2,...,wn)
=P(s,w1,w2,...,wn)P(w1,w2,...,wn)
  • 12
    点赞
  • 97
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
下面是一个简单的Python实现,使用朴素贝叶斯算法垃圾邮件进行分类: ```python import numpy as np import pandas as pd from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import train_test_split from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score # 加载数据集 df = pd.read_csv('spam.csv', encoding='latin-1') df = df[['v1', 'v2']] df = df.rename(columns={'v1': 'label', 'v2': 'text'}) # 将标签转换为二进制值 df['label'] = df['label'].map({'ham': 0, 'spam': 1}) # 分割数据集 X_train, X_test, y_train, y_test = train_test_split(df['text'], df['label'], random_state=1) # 特征提取 vectorizer = CountVectorizer() X_train = vectorizer.fit_transform(X_train) X_test = vectorizer.transform(X_test) # 训练模型 clf = MultinomialNB() clf.fit(X_train, y_train) # 预测并评估模型 y_pred = clf.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` 上述代码中,我们首先加载数据集,并将标签转换为二进制值。然后,使用`train_test_split`函数对数据集进行分割,将其划分为训练集和测试集。接下来,使用`CountVectorizer`对文本数据进行特征提取,并将其转换为稀疏矩阵表示。最后,使用`MultinomialNB`训练朴素贝叶斯分类器,并对测试集进行预测和评估,输出准确率。 需要注意的是,上述代码中只是一个简单的示例,实际应用中可能需要进行更多的数据预处理和特征工程,以及调整超参数来优化模型性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值