SMS垃圾短信集F1指标分析

最新推荐文章于 2025-01-01 16:52:21 发布

编程初学者01

最新推荐文章于 2025-01-01 16:52:21 发布

阅读量458

点赞数 5

分类专栏：自然语言处理文章标签： easyui javascript 算法深度学习

本文链接：https://blog.csdn.net/m0_67587248/article/details/139298195

版权

自然语言处理专栏收录该内容

2 篇文章

订阅专栏

一、任务

SMS垃圾短信集是一组为研究SMS垃圾短信而收集数据集合，每条短信有两个信息，分别是标签信息label，其中spam为垃圾短信，ham为正常短信。以及message信息为短信内容。现在有训练集，训练集保存在E:\自然语言处理\train.csv和测试集，测试集保存在E:\自然语言处理\test.csv。现在综合利用所学的文本预处理、特征提取、文本向量化等技术对其进行分析。建立机器学习模型，计算测试集上的F1指标，希望F1指标达到非常好的效果。

二、代码

使用SVC机器学习模型，Tfidf特征处理。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import f1_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder
import re
import string

# 1. 数据加载与预处理
train_data = pd.read_csv("E:\\自然语言处理\\train.csv")
test_data = pd.read_csv("E:\\自然语言处理\\test.csv")

# 定义文本预处理函数
def preprocess_text(text):
    # 将文本转换为小写
    text = text.lower()
    # 去除标点符号
    text = text.translate(str.maketrans('', '', string.punctuation))
    # 去除数字
    text = re.sub(r'\d+', '', text)
    # 返回处理后的文本
    return text

# 对训练集和测试集的文本进行预处理
train_data['message'] = train_data['message'].apply(preprocess_text)
test_data['message'] = test_data['message'].apply(preprocess_text)

# 2. 特征提取与文本向量化
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(train_data['message'])
X_test = vectorizer.transform(test_data['message'])

# 对标签进行编码
label_encoder = LabelEncoder()
y_train = label_encoder.fit_transform(train_data['label'])
y_test = label_encoder.transform(test_data['label'])

# 3. 建立机器学习模型
classifier = SVC(kernel='linear')

# 4. 模型训练与评估
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)

# 计算F1指标
f1 = f1_score(y_test, y_pred)

print("F1 Score:", f1)