利用NLTK+sklearn进行垃圾邮件分类

最新推荐文章于 2022-03-14 14:35:58 发布

plutojia

最新推荐文章于 2022-03-14 14:35:58 发布

阅读量2.7k

点赞数 2

分类专栏： nlp 算法 python 文章标签： nlp 文本分类 sklearn nltk

本文链接：https://blog.csdn.net/mingzhiqing/article/details/82971672

版权

本文介绍如何结合NLTK进行数据预处理和特征提取，利用sklearn进行机器学习训练，以实现垃圾邮件分类。实验中，作者尝试多种机器学习算法，并评估了分类效果。数据集来源于UCI机器学习库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

利用NLTK来进行数据处理和提取特征，再交由sklearn进行机器学习训练分类器，尝试了多个机器学习算法并评价分类性能。

训练用数据集是:https://archive.ics.uci.edu/ml/datasets/sms+spam+collection ,可下载使用。也可以用自己的数据集，但一定要做成一个样本一行，每个样本先是标签spam/ham，空一格然后是邮件内容的形式。

上代码：

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import csv
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn import tree
from sklearn.linear_model import SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier

#预处理
def preprocessing(text):
    #text=text.decode("utf-8")
    tokens=[word for sent in nl

最低0.47元/天解锁文章