基于逻辑回归的中文垃圾短信分类

最新推荐文章于 2024-04-24 13:35:29 发布

VIP文章 wizard-sw

最新推荐文章于 2024-04-24 13:35:29 发布

阅读量915

点赞数 5

分类专栏：学习项目文章标签： python 逻辑回归机器学习

本文链接：https://blog.csdn.net/weixin_39201758/article/details/106958624

版权

基于逻辑回归的中文垃圾短信分类

一、数据预处理

去重
中文分词和停用词

二、建立模型
三、预测

一.数据预处理

源数据一共有80万条短信，我选1万条做我的源数据
后面做预测信息的时候选的2000条没做源数据的数据，一份去掉标签的用作预测，一份没去标签的我后面用来做计数处理。
1.数据去重

data=data.drop_duplicates(subset=['text'])  # text列去重

其实源数据并没有重复数据…
2.中文分词和停用词
a.中文分词
中文分词使用目前流行的结巴（Jieba）

# 中文分词
x1=[]
x=[]
y=[]
x1=data['text'].values
# data["text"].apply(lambda x:' '.join(jieba.cut(x)))
for i in range(len(x1)):
    words=jieba.cut(x1[i])
    str1=""
    for key in words:
        if key not in stop_words:
            if key != '\t':  
                str1+=key
                str1+=' '
    x.append(str1)                #短信内容
y=data['label'].values

b.停用词
停用词表网上下载根据源数据再添了一些
不得不吐槽我用的这个源数据是真的源数据一堆乱七八糟的内容

# 停用词
stop_f = open('./stopwords.txt',"r",encoding='utf-8')
stop_words=[]
for line in stop_f.readlines():
    line = line.strip()
    if not len(line):
        continue 
    stop_words.append(line)
stop_f.close

二、建立模型并训练

使用机器学习sklearn库方便简单
1.建立模型

#线性回归
train_x,test_x,y_train,y_test = train_test_split(x,y,test_size=0.3)#测试集:训练集 =1:9
# test_xrain
#通过TfidfVectorizer算出TF-IDF权重

最低0.47元/天解锁文章

wizard-sw

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
基于逻辑回归的中文垃圾短信分类

基于逻辑回归的中文垃圾短信分类一、数据预处理去重中文分词和停用词二、建立模型三、预测一.数据预处理源数据一共有80万条短信，我选1万条做我的源数据后面做预测信息的时候选的2000条没做源数据的数据，一份去掉标签的用作预测，一份没去标签的我后面用来做计数处理。1.数据去重data=data.drop_duplicates(subset=['text']) # text列去重其实源数据并没有重复数据…2.中文分词和停用词a.中文分词中文分词使用目前流行的结巴（Jieba）
复制链接

扫一扫