python sklearn实现中文短信垃圾分类

最新推荐文章于 2024-08-14 16:35:50 发布

qiuqiu1027

最新推荐文章于 2024-08-14 16:35:50 发布

阅读量1.6k

点赞数

分类专栏： python代码商业分析文章标签：数据挖掘 python 自然语言处理机器学习

本文链接：https://blog.csdn.net/qiuqiu1027/article/details/106405799

版权

本文通过Python的sklearn库实现中文短信的分类任务，包括数据读取、短信分词、训练集与测试集划分、模型训练及预测，详细探讨了准确率、召回率，并展示了混淆矩阵的部分实例。

摘要由CSDN通过智能技术生成

数据读取

import pandas as pd
import jieba 
data = pd.read_csv(r"E:\数据\实验data\messages.csv",encoding='gbk', header=0, ,names=[“ID”,'label','text'])
#print(data.head())

短信分词

data['cut_message'] = data["text"].apply(lambda x:' '.join(jieba.cut(x)))#使用空格连接分词
#print(data.head())

x = data['cut_message'].values
y = data['label'].values

训练集、测试集划分

from sklearn.cross_validation import train_test_split
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.1)#测试集:训练集 =1:9

模型训练与预测

from sklearn.feature_extraction.text import TfidfTransformer,CountVectorizer
vectorizer = CountVectorizer()
x_train_termcounts = vectorizer.fit_transform(train_x)
 
tfidf_transformer = TfidfTransforme