LSTM实战《短信文本分类》

hellworld1993

已于 2023-02-17 16:31:15 修改

阅读量357

点赞数

文章标签： lstm 分类深度学习

于 2023-02-17 16:07:13 首次发布

本文链接：https://blog.csdn.net/helloxiefei/article/details/129088982

版权

什么是LSTM?

LSTM（Long Short-Term Memory，长短时记忆网络）是一种常用的循环神经网络（Recurrent Neural Network，RNN）架构，它被设计用于处理序列数据，并且在许多自然语言处理和语音识别等领域中被广泛应用。

LSTM 的关键思想是引入了记忆单元（Memory Cell）和门（Gates）的概念，以实现更好的长期依赖性建模和控制信息流的能力。LSTM 的记忆单元可以存储和读取信息，并且通过门来控制哪些信息可以进入和离开记忆单元。这些门由一些可训练的神经网络单元组成，包括遗忘门（Forget Gate）、输入门（Input Gate）和输出门（Output Gate）。遗忘门决定了何时从记忆单元中删除信息，输入门决定何时向记忆单元添加新信息，输出门决定何时从记忆单元中读取信息输出。

LSTM 的基本单元包括一个记忆单元和三个门，具体包括以下几个部分：

输入门：根据当前的输入和上一时刻的输出，决定哪些信息需要存储到记忆单元中。
遗忘门：决定从记忆单元中删除哪些信息。
输出门：决定从记忆单元中读取哪些信息输出。
记忆单元：保存长期记忆信息。

LSTM 可以通过堆叠多个 LSTM 单元来构建更深层次的神经网络，用于处理更复杂的序列建模任务。LSTM 在自然语言处理、语音识别、视频分析、时间序列预测等领域中取得了很好的效果，并且已经成为很多应用的核心技术之一。

使用LSTM完成一个短信文本分类

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

# Load data
data = pd.read_csv("sms_messages.csv")

# Preprocess data
data['message'] = data['message'].str.replace('[^\w\s]','')
data['message'] = data['message'].str.lower()

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(data['message'], data['category'], test_size=0.2)

# Tokenize text
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

# Pad sequences to fixed length
max_length = 100
X_train_padded = pad_sequences(X_train_seq, maxlen=max_length, padding='post')
X_test_padded = pad_sequences(X_test_seq, maxlen=max_length, padding='post')

# Convert labels to categorical
y_train_categorical = to_categorical(y_train)
y_test_categorical = to_categorical(y_test)

# Build model
model = Sequential()
model.add(Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=32, input_length=max_length))
model.add(LSTM(64))
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# Train model
model.fit(X_train_padded, y_train_categorical, epochs=10, batch_size=32)

# Evaluate model
_, accuracy = model.evaluate(X_test_padded, y_test_categorical)
print("Accuracy:", accuracy)

此代码假设您有一个名为“sms_messages.CSV”的CSV文件，其中有两列：“message”（sms消息文本）和“category”（“personal”或“business”）。

代码首先通过删除标点符号并将所有文本转换为小写来对数据进行预处理。然后，它将数据分成训练集和测试集，并使用Keras标记器将文本标记为整数序列。然后使用Keras pad_sequences函数将序列填充到固定长度。标签也使用Keras to_categorical函数转换为类别形式。

该模型是一个简单的LSTM神经网络，具有嵌入层、LSTM层和具有softmax激活函数的密集输出层。使用类别交叉熵损失和Adam优化器在填充序列和类别标签上训练模型。

最后，代码通过计算测试数据的准确性来评估模型的性能。这是一个简单的例子，有很多方法可以提高模型的性能，例如使用更复杂的预处理技术、调整模型的超参数以及使用更先进的神经网络架构。