垃圾短信识别python步骤详细_python数据挖掘第三篇-垃圾短信文本分类

最新推荐文章于 2024-05-02 19:40:35 发布

李进锋

最新推荐文章于 2024-05-02 19:40:35 发布

阅读量3k

点赞数 2

文章标签：垃圾短信识别python步骤详细

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35174422/article/details/113712756

版权

本文详细介绍了使用Python进行垃圾短信识别的过程，包括数据探索、数据抽取、文本预处理、分词、去除停用词、文本向量化等步骤，涉及pandas、matplotlib和sklearn库的使用。通过对文本数据的处理和分析，为后续的分类模型建立打下基础。

摘要由CSDN通过智能技术生成

文本分类总体上包括8个步骤。数据探索分析-》数据抽取-》文本预处理-》分词-》去除停用词-》文本向量化表示-》分类器-》模型评估.重要python库包括numpy(数组),pandas(用于处理结构化数据),matplotlib(绘制词云，便于直观表示),sklearn(提供大量分类聚类算法库).

1.数据探索分析

(1)获取大量未经过处理的文档，且标记好文档所属类型。

(2)给各个文档分配唯一的Id,并将之前用文字标记的分类类别用离散数字代替。例如分类标记为[‘正常短信’，‘垃圾短信’]，将其离散表示为[0,1].

(3)将Id,文档内容，标记作为列，样本个数作为行，将这些文档读入一个数组中。形式为:[ [Id1,content1,label1], ...,[Id_n,content_n,label_n] ]

代码示例：

import pandas as pd

data = pd.read_csv(csv文件名，header=None) # 读入csv文件，不读入列名

data.columns = ['Id','Content','Label']

1.1DataFrame中获取数据的一些方法：data.loc[] # 通过字符串索引的方式获取指定行列数据例如：

data.loc[0:2,'content'] # 获取第0,1,2行的content列的数据，【注意】：0:2获取的是0,1,2行，这一点和一般的切片不相同

data.loc[[0,2],['content','label']] # 通过列表指定行列

data.iloc[] # 通过数字索引方

最低0.47元/天解锁文章

关注

2
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
垃圾短信识别python步骤详细_python数据挖掘第三篇-垃圾短信文本分类

文本分类总体上包括8个步骤。数据探索分析-》数据抽取-》文本预处理-》分词-》去除停用词-》文本向量化表示-》分类器-》模型评估.重要python库包括numpy(数组),pandas(用于处理结构化数据),matplotlib(绘制词云，便于直观表示),sklearn(提供大量分类聚类算法库).1.数据探索分析(1)获取大量未经过处理的文档，且标记好文档所属类型。(2)给各个文档分配唯一的Id,...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。