备注:一下除了图片是论文中的,其它全部是原创。
1 问题描述:
根据5个给定的话题词,生成一篇短文,要求大概就是这篇短文起码要通顺把,然后5个话题都要出现在这篇短文当中。
2 数据集介绍:
作者自己构建了两个数据集,一个是作文的数据集,另外一个是zhihu数据集,感觉作文的数据集数据质量比较高,zhihu的数据集质量比较差一点,而且作文数据集5个话题全部出现在了生成的短文里面,而zhihu数据集5个话题不一定出现在了短文里面,所以zhihu数据集更加难以学习。下面两张图是我统计出的两个数据集的文本长度分布。第一个是作文的数据集,第二个是zhihu的数据集,画出这个分布的主要目的是为了确定那个LSTM的时间步的设置,因为作者使用的是静态rnn在训练的过程中时间步是确定的,所以这个时间步也就是num_steps必须提前确定,那么这个时间步对于zhihu的数据集作者取得是101,多一个主要是语言模型得两个标记START和EOS,而且一句话需要错位预测(我自己的话)。