LSTM生成尼采风格文章

最新推荐文章于 2021-05-12 14:05:37 发布

csdn0006

最新推荐文章于 2021-05-12 14:05:37 发布

阅读量1.5k

点赞数 1

分类专栏： DL python 文章标签： LSTM

本文链接：https://blog.csdn.net/csdn0006/article/details/82193216

版权

本文介绍了如何使用LSTM循环神经网络生成尼采风格的文章。通过训练语言模型，结合不同的采样策略，如贪婪采样和随机采样，控制softmax temperature参数以平衡生成序列的随机性和可预测性。实验展示了temperature值对生成文本的影响，低temperature产生可预测文本，高temperature则带来创新和创造性。

摘要由CSDN通过智能技术生成

LSTM生成文本

使用循环神经网络生成序列文本数据。循环神经网络可以用来生成音乐、图像作品、语音、对话系统对话等等。

如何生成序列数据？

深度学习中最常见的方法是训练一个网络模型(RNN或者CNN)通过之前的tokens预测下一个或者之后的几个token序列。通常在处理文本数据时，tokens通常是单词或字符，任何可以对给定前一个tokens时对下一个令牌的概率进行建模的网络模型称为语言模型。语言模型能捕捉语言的潜在空间特性：其统计结构特征。

一旦你有了这样一个训练有素的语言模型，你就可以从中进行采样（生成新的序列）：你给它一个初始的文本字符串（称为条件数据），让它生成下一个字符或下一个字（你甚至可以一次生成几个tokens），将生成的输出添加回输入数据，并多次重复该过程（见图8.1）。

此循环允许生成任意长度的序列，这些序列反映了训练模型的数据结构：看起来几乎与人类书写句子相似的序列。

取样策略

生成文本时，选择下一个字符的方式至关重要。一种朴素的方法是贪婪采样–总是选择最可能的下一个字符。但是这种方法导致重复的，可预测的字符串看起来不连贯。一种更有趣的方法会产生更令人惊讶的选择：它通过从下一个字符的概率分布中抽样，在抽样过程中引入随机性。这称为随机抽样。注意，贪心采样也可以作为概率分布的采样：一个特定字符的概率为1而其他概率为0。

从模型的softmax输出中概率地采样是巧妙的：它允许在某些时候对不太可能的字符进行采样，产生更有趣的句子，并且有时通过提出在训练数据中未发生的新的，逼真的单词来显示模型创造力。但是这个策略存在一个问题：它没有提供一种控制采样过程中随机性的方法。

随机性的重要性。考虑一个极端情况：纯随机抽样，从均匀概率分布中绘制下一个字符，并且每个角色都具有相同的可能性。该方案具有最大随机性;换句话说，该概率分布具有最大熵。当然，它不会产生任何有趣的东西。在另一个极端，贪婪的采样也不会产生任何有趣的东西，并且没有随机性：相应的概率分布具有最小的熵。从“真实”概率分布中抽样(由模型的softmax函数输出的分布)构成这两个极端之间的中间点。但是，可能希望探索许多其他更高或更低熵的中间点。较少的熵将使生成的序列具有更可预测的结构（因此它们可能看起来更逼真），而更多的熵将导致更令人惊讶和创造性的序列。
当从生成模型中抽样时，在生成过程中探索不同量的随机性总是好的。因为我们是生成数据有趣程度的终极判断，所以相互作用是高度主观的，并且不可能事先知道最佳熵点在哪里。
为了控制采样过程中的随机性，我们将引入一个名为softmax temperature的参数，该参数表示用于采样的概率分布的熵：它表征下一个字符的选择将会出乎意料或可预测的程度。给定温度值，通过以下列方式对其进行重新加权，从原始概率分布（模型的softmax输出）计算新的概率分布。

import numpy as np

def reweight_distribution(original_distribution, temperature=0.5):
    distribution = np.log(original_distribution) / temperature#原始分布为1D，和为1；
    distribution = np.exp(distribution)
    return distribution / np.sum(distribution)

较高的temperature导致较高熵的采样分布，这将产生更多令人惊讶和非结构化的生成数据，而较低的temperature将导致较少的随机性和更可预测的生成数据。

实现字符级LSTM文本生成

用Keras将这些想法付诸实践。第一件事是准备用来学习语言模型的大量文本数据。可以使用任何足够大的文本文件或一组文本文件—维基百科，指环王等等。在这个例子中，你将使用19世纪晚期德国哲学家尼采（Nietzsche）的一些著作（翻译成英文）。因此，将学习的语言模型将特别是尼采的写作风格和选择主题的模型，而不是更通用的英语模型。

准备数据
下载数据，转换成小写

import keras
import numpy as np

path = keras.utils.get_file('nietzsche.txt',origin='https://s3.amazonaws

最低0.47元/天解锁文章

csdn0006

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录