使用sklearn实现垃圾短信识别

最新推荐文章于 2024-05-06 22:17:13 发布

sunsi_10

最新推荐文章于 2024-05-06 22:17:13 发布

阅读量2.2k

点赞数 2

分类专栏： NLP

本文链接：https://blog.csdn.net/sunsi_10/article/details/81914300

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

import pandas as pd
import jieba 
data = pd.read_csv(r"E:\UCAS\labled.txt",sep = '\t',names=['label','text'])#read data and name the row
#print(data.head())
data['cut_message'] = data["text"].apply(lambda x:' '.join(jieba.cut(x)))#use ' ' cut the sentences into words
#print(data.head())
x = data['cut_message'].values
y = data['label'].values

from sklearn.cross_validation import train_test_split
train_x,test_x,train_y,test_y = train_test_split(x,y,test_size=0.1)#test_size:train_size=1:9
from sklearn.feature_extraction.text import TfidfTransformer,CountVectorizer
vectorizer = CountVectorizer()
x_train_termcounts = vectorizer.fit_transform(train_x)
 
tfidf_transformer = TfidfTransformer()
x_train_tfidf = tfidf_transformer.fit_transform(x_train_termcounts)


from sklearn.naive_bayes import GaussianNB,MultinomialNB
classifier = MultinomialNB().fit(x_train_tfidf,train_y)

x_input_termcounts = vectorizer.transform(test_x)
x_input_tfidf = tfidf_transformer.transform(x_input_termcounts)

predicted_categories = classifier.predict(x_input_tfidf)

from sklearn.metrics import accuracy_score#accurency_score
accuracy_score(test_y,predicted_categories)

#output some examples
category_map = {
    0:'normal',
    1:'spam'
}
for sentence,category,real in zip(test_x[:10],predicted_categories[:10],test_y[:10]):
    print('\nmessage_content:',sentence,'\npredicted_type:',category_map[category],'real_values:',category_map[real])

代码来自"州的先生"

使用pandas处理数据，使用jieba进行中文分词，之后调用sklearn包中的tfidf函数，贝叶斯函数，交叉验证函数，准确率计算函数来进行垃圾短信的识别，最后输出几个实例展示。（sklearn包里的函数使用还不太熟练，jieba还有pandas工具包以后要多加练习）

sunsi_10

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
使用sklearn实现垃圾短信识别

import pandas as pdimport jieba data = pd.read_csv(r"E:\UCAS\labled.txt",sep = '\t',names=['label','text'])#read data and name the row#print(data.head())data['cut_message'] = data["text"].apply(l...
复制链接

扫一扫

专栏目录