自然语言处理（NLP）实战：文本分类与情感分析

最新推荐文章于 2025-03-29 10:47:59 发布

威哥说编程

最新推荐文章于 2025-03-29 10:47:59 发布

阅读量962

点赞数 9

文章标签： AI编程人工智能

单威

本文链接：https://blog.csdn.net/m0_38141444/article/details/145627984

版权

自然语言处理（NLP）是人工智能领域的一个重要分支，旨在使计算机能够理解、生成和分析人类语言。文本分类和情感分析是NLP中的两个基本任务，在各行各业中得到了广泛应用，如情感分析、垃圾邮件分类、舆情监测等。

在本文中，我们将带你通过一个简单的实战项目，使用Python和流行的深度学习框架Keras进行文本分类和情感分析。

一、项目目标

我们将实现一个文本分类和情感分析模型，任务是根据给定的文本判断其情感是“积极”还是“消极”。使用的样本数据集是一个包含电影评论的情感分析数据集（例如 IMDB 数据集），该数据集包含大量的电影评论及其情感标签。

二、环境准备

安装Python与必要库

在开始之前，需要确保安装了Python环境，并安装常用的NLP和深度学习库。

pip install tensorflow numpy pandas matplotlib scikit-learn nltk

TensorFlow：深度学习框架。
NumPy：处理数值计算。
Pandas：数据处理与分析。
Matplotlib：绘图。
Scikit-learn：提供机器学习工具和模型。
NLTK：自然语言处理工具包，包含分词、词干提取等功能。

验证安装

可以通过运行以下代码，检查TensorFlow的版本是否安装成功：

import tensorflow as tf
print(tf.__version__)

三、数据集准备

在本项目中，我们使用IMDB情感分析数据集，这是一个包含25,000个电影评论的标准数据集，每个评论都有对应的标签（1表示“积极”，0表示“消极”）。

我们可以直接通过Keras加载IMDB数据集：

from tensorflow.keras.datasets import imdb

# 加载数据集，默认返回的是训练集和测试集
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

num_words=10000：只保留最常见的10000个单词，减少数据规模，便于训练。

四、数据预处理

加载数据后，评论数据是以整数形式表示的，每个数字代表词汇表中的一个词。因此，我们需要对文本进行处理，使其能够输入神经网络进行训练。

1. 文本填充（Padding）

由于评论的长度不同，我们需要将每条评论填充到统一的长度。Keras提供了pad_sequences函数，可以帮助我们进行填充。

from tensorflow.keras.preprocessing.sequence import pad_sequences

# 填充序列，确保每条评论的长度一致
x_train = pad_sequences(x_train, maxlen=500)
x_test = pad_sequences(x_test, maxlen=500)

maxlen=500：将每条评论填充为500个单词的长度，如果评论少于500个单词，则进行零填充；如果多于500个单词，则截断。

2. 数据标准化与归一化

通常，文本数据不需要像图像那样进行标准化或归一化，关键在于将评论的每个单词转化为数字表示（已在上面进行），且我们已通过填充使得数据统一长度。

五、构建神经网络模型

在本例中，我们将使用一个简单的卷积神经网络（CNN）和全连接层（Dense layer）来构建文本分类模型。

1. 构建模型

使用 Keras 构建一个包含嵌入层（Embedding）、卷积层（Conv1D）、池化层（MaxPooling1D）和全连接层（Dense）的模型。

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, MaxPooling1D, Dense, GlobalMaxPooling1D

# 定义模型
model = Sequential()

# 嵌入层：将每个词索引映射为一个词向量
model.add(Embedding(input_dim=10000, output_dim=128, input_length=500))

# 卷积层：提取局部特征
model.add(Conv1D(filters=128, kernel_size=5, activation='relu'))

# 池化层：降低维度，减少计算量
model.add(MaxPooling1D(pool_size=4))

# 全局池化层：提取最重要的特征
model.add(GlobalMaxPooling1D())

# 全连接层：将特征映射到分类空间
model.add(Dense(10, activation='relu'))
model.add(Dense(1, activation='sigmoid'))  # 输出层：sigmoid函数适合二分类任务

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

Embedding：将每个单词转换为一个128维的向量表示。
Conv1D：一维卷积层，用于提取文本中的局部特征。
MaxPooling1D：池化层，帮助降低维度，减少计算量。
GlobalMaxPooling1D：全局池化层，获取整个序列的最重要特征。
Dense：全连接层，输出分类结果。

2. 训练模型

现在，我们可以使用训练数据来训练模型。

history = model.fit(x_train, y_train, epochs=5, batch_size=64, validation_data=(x_test, y_test))

epochs=5：训练5轮。
batch_size=64：每次训练处理64个样本。
validation_data：指定验证集，用于实时监控训练效果。

六、评估与结果分析

训练完成后，我们可以使用测试集评估模型的性能。

test_loss, test_accuracy = model.evaluate(x_test, y_test)
print(f"Test accuracy: {test_accuracy * 100:.2f}%")

评估结果将显示模型在测试集上的准确率。通常，情感分析模型的准确率可以达到85%-95%之间，具体取决于模型架构和训练时间。

绘制训练过程中的损失与准确率变化

我们还可以通过Matplotlib绘制训练过程中的损失和准确率变化，帮助我们了解模型是否存在过拟合或欠拟合。

import matplotlib.pyplot as plt

# 绘制训练和验证准确率
plt.plot(history.history['accuracy'], label='Training Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.title('Model Accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')
plt.show()

# 绘制训练和验证损失
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Model Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend(loc='upper right')
plt.show()