LSTM与文本生成

Jiang_Immortals

已于 2024-03-01 20:34:30 修改

阅读量692

点赞数 8

分类专栏：人工智能文章标签： lstm 人工智能 rnn

于 2023-12-25 09:44:11 首次发布

本文链接：https://blog.csdn.net/jiang_changsheng/article/details/135191944

版权

人工智能专栏收录该内容

31 篇文章 0 订阅

订阅专栏

当使用Python和Keras构建LSTM模型时，可以按照以下步骤进行简单的文本生成：

准备数据集：

首先，将文本数据集进行预处理，例如分词、去除标点符号、将文本转换为小写等。
创建一个词汇表，将每个唯一的单词映射到一个整数值，以便进行向量化。
将文本序列划分为输入序列和目标序列。例如，对于句子 “I love AI”，输入序列是 “I love”，目标序列是 “AI”。

构建LSTM模型：

导入必要的库，如Keras和NumPy。
创建一个Sequential模型，用于堆叠LSTM层。
添加一个Embedding层，用于将整数值的单词映射为密集向量表示。
添加一个或多个LSTM层，指定隐藏状态的维度和其他参数。
添加一个全连接层，将LSTM层的输出映射到词汇表中的单词数量。
编译模型并指定损失函数和优化器。

训练模型：

使用输入序列和目标序列训练LSTM模型。可以使用Keras的fit()函数来完成。
-选择适当的训练参数，如批量大小、迭代次数等。

4.生成文本：

使用训练完成的LSTM模型来生成新的文本。
提供一个起始文本序列作为输入，使用模型预测下一个单词。
将预测的单词添加到序列中，并继续进行预测，直到达到所需的文本长度或结束标记。

以下是一个简单的代码示例：

tokens = text.lower().split()
vocab = sorted(list(set(tokens)))
word_to_int = dict((w, i) for i, w in enumerate(vocab))
int_to_word = dict((i, w) for i, w in enumerate(vocab))
seq_length =2data = []
for i in range(len(tokens) - seq_length):
 seq_in = tokens[i:i+seq_length]
 seq_out = tokens[i+seq_length]
 data.append((seq_in, seq_out))

# 向量化数据X = np.zeros((len(data), seq_length))
y = np.zeros(len(data))
for i, (seq_in, seq_out) in enumerate(data):
 X[i] = [word_to_int[word] for word in seq_in]
 y[i] = word_to_int[seq_out]

# 构建LSTM模型vocab_size = len(vocab)
embedding_dim =10hidden_units =32model = Sequential()
model.add(Embedding(vocab_size, embedding_dim, input_length=seq_length))
model.add(LSTM(hidden_units))
model.add(Dense(vocab_size, activation='softmax'))
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam')

# 训练模型model.fit(X, y, epochs=100, batch_size=1)

#生成文本start_seq = "I love"
generated_text = start_seqnum_words =5for _ in range(num_words):
 seq = [word_to_int[word] for word in start_seq.lower().split()]
 seq = np.array(seq).reshape(1, seq_length)
 prediction = model.predict(seq)
 next_word = int_to_word[np.argmax(prediction)]
 generated_text += " " + next_word start_seq += " " + next_wordprint(generated_text)

这个例子中，我们首先准备了一个简单的文本数据集，然后使用LSTM模型对其进行训练，并使用训练好的模型生成新的文本。请注意，这只是一个简单的示例，实际应用中可能需要更复杂的模型和更大的数据集来获得更好的结果。

以下是使用PyTorch的代码示例，详细说明了如何构建和训练LSTM模型以生成文本。

首先，我们需要导入必要的库：

pythonimport torchimport torch.nn as nnimport numpy as np

接下来，我们定义一个LSTM模型类：

 def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers):
 super(LSTMModel, self).__init__()
 self.embedding = nn.Embedding(vocab_size, embedding_dim)
 self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers, batch_first=True)
 self.fc = nn.Linear(hidden_dim, vocab_size)

 def forward(self, x, hidden):
 embedded = self.embedding(x)
 output, hidden = self.lstm(embedded, hidden)
 output = self.fc(output)
 return output, hidden```

接下来，我们定义一些辅助函数来处理文本数据：

```pythondef tokenize_text(text):
 tokens = text.lower().split()
 return tokensdef create_vocab(tokens):
 vocab = sorted(list(set(tokens)))
 word_to_int = dict((w, i) for i, w in enumerate(vocab))
 int_to_word = dict((i, w) for i, w in enumerate(vocab))
 return vocab, word_to_int, int_to_worddef create_dataset(tokens, seq_length):
 data = []
 for i in range(len(tokens) - seq_length):
 seq_in = tokens[i:i+seq_length]
 seq_out = tokens[i+seq_length]
 data.append((seq_in, seq_out))
 return datadef vectorize_data(data, word_to_int):
 X = []
 y = []
 for seq_in, seq_out in data:
 X.append([word_to_int[word] for word in seq_in])
 y.append(word_to_int[seq_out])
 return X, y```

然后，我们定义一些超参数和训练过程：

```python# 超参数embedding_dim =10hidden_dim =32num_layers =1num_epochs =100batch_size =1learning_rate =0.001# 文本数据text = "I love AI"
seq_length =2# 数据预处理tokens = tokenize_text(text)
vocab, word_to_int, int_to_word = create_vocab(tokens)
data = create_dataset(tokens, seq_length)
X, y = vectorize_data(data, word_to_int)

# 转换为TensorX = torch.tensor(X)
y = torch.tensor(y)

# 创建模型和优化器vocab_size = len(vocab)
model = LSTMModel(vocab_size, embedding_dim, hidden_dim, num_layers)
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()

# 训练模型for epoch in range(num_epochs):
 model.train()
 hidden = (torch.zeros(num_layers, batch_size, hidden_dim),
 torch.zeros(num_layers, batch_size, hidden_dim))
 outputs, hidden = model(X, hidden)
 loss = criterion(outputs.view(-1, vocab_size), y.view(-1))
 optimizer.zero_grad()
 loss.backward()
 optimizer.step()

 if (epoch+1) %10 ==0:
 print(f"Epoch: {epoch+1}/{num_epochs}, Loss: {loss.item()}")

#生成文本start_seq = "I love"
num_words =5generated_text = start_seq.split()
hidden = (torch.zeros(num_layers,1, hidden_dim),
 torch.zeros(num_layers,1, hidden_dim))

model.eval()
for _ in range(num_words):
 input_seq = torch.tensor([[word_to_int[word] for word in generated_text[-seq_length:]]])
 output, hidden = model(input_seq, hidden)
 _, predicted = torch.max(output, dim=2)
 next_word = int_to_word[predicted.item()]
 generated_text.append(next_word)

print("Generated Text:", " ".join(generated_text))

这个代码示例中，我们首先进行了数据预处理和向量化，然后定义了一个LSTM模型类。接着我们进行了模型的训练，并使用训练好的模型生成新的文本。

tokens = text.lower().split()
vocab = sorted(list(set(tokens)))
word_to_int = {w: i for i, w in enumerate(vocab)}
int_to_word = {i: w for i, w in enumerate(vocab)}
seq_length =2data = []
for i in range(len(tokens) - seq_length):
 seq_in = tokens[i:i + seq_length]
 seq_out = tokens[i + seq_length]
 data.append((seq_in, seq_out))

# 构建训练数据X = np.zeros((len(data), seq_length))
y = np.zeros(len(data))
for i, (seq_in, seq_out) in enumerate(data):
 X[i] = [word_to_int[word] for word in seq_in]
 y[i] = word_to_int[seq_out]

# 转换为TensorX = torch.tensor(X, dtype=torch.long)
y = torch.tensor(y, dtype=torch.long)

# LSTM模型class LSTMModel(nn.Module):
 def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers):
 super(LSTMModel, self).__init__()
 self.embedding = nn.Embedding(vocab_size, embedding_dim)
 self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers, batch_first=True)
 self.fc = nn.Linear(hidden_dim, vocab_size)

 def forward(self, x):
 embedded = self.embedding(x)
 output, _ = self.lstm(embedded)
 output = self.fc(output[:, -1, :])
 return output# 定义超参数vocab_size = len(vocab)
embedding_dim =10hidden_dim =32num_layers =1num_epochs =100batch_size =1learning_rate =0.001# 创建模型和优化器model = LSTMModel(vocab_size, embedding_dim, hidden_dim, num_layers)
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()

# 训练模型for epoch in range(num_epochs):
 model.train()
 optimizer.zero_grad()
 outputs = model(X)
 loss = criterion(outputs.view(-1, vocab_size), y.view(-1))
 loss.backward()
 optimizer.step()

 if (epoch+1) %10 ==0:
 print(f"Epoch: {epoch+1}/{num_epochs}, Loss: {loss.item()}")

#生成文本start_seq = "I love"
num_words =5generated_text = start_seq.split()
model.eval()
with torch.no_grad():
 for _ in range(num_words):
 input_seq = torch.tensor([[word_to_int[word] for word in generated_text[-seq_length:]]], dtype=torch.long)
 output = model(input_seq)
 _, predicted = torch.max(output, dim=2)
 next_word = int_to_word[predicted.item()]
 generated_text.append(next_word)

print("Generated Text:", " ".join(generated_text))

在PyTorch中实现LSTM文本生成的代码示例中，我们首先进行了数据预处理步骤，包括将原始文本转换为小写并分割为单词。然后，我们创建了一个词汇表，并将每个单词映射到一个整数值，以便进行向量化。

接下来，我们构建了一个LSTM模型。该模型包括一个嵌入层（Embedding layer），用于将整数值的单词映射为密集向量表示。然后，我们使用一个或多个LSTM层来捕捉文本序列的上下文信息。最后，我们添加一个全连接层，将LSTM层的输出映射到词汇表中的单词数量，并使用softmax激活函数进行分类。

在训练阶段，我们使用交叉熵损失函数来衡量模型的输出与真实标签之间的差异，并使用Adam优化器来更新模型的参数。我们迭代了多个时期（epochs），在每个时期中，我们将训练数据输入到模型中，并计算损失值。然后，我们通过反向传播和梯度下降来更新模型的参数，以最小化损失函数。

最后，我们使用训练好的模型来生成新的文本。我们提供一个起始文本序列作为输入，并使用模型预测下一个单词。然后，将预测的单词添加到序列中，并继续进行预测，直到达到所需的文本长度或结束标记。

这个代码示例提供了LSTM文本生成的一个基本框架

Jiang_Immortals

关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
LSTM与文本生成

最后，我们添加一个全连接层，将LSTM层的输出映射到词汇表中的单词数量，并使用softmax激活函数进行分类。在训练阶段，我们使用交叉熵损失函数来衡量模型的输出与真实标签之间的差异，并使用Adam优化器来更新模型的参数。这个例子中，我们首先准备了一个简单的文本数据集，然后使用LSTM模型对其进行训练，并使用训练好的模型生成新的文本。请注意，这只是一个简单的示例，实际应用中可能需要更复杂的模型和更大的数据集来获得更好的结果。接着我们进行了模型的训练，并使用训练好的模型生成新的文本。
复制链接

扫一扫