新闻标题生成模型-随便整理一下

最新推荐文章于 2022-05-30 12:32:50 发布

sythello

最新推荐文章于 2022-05-30 12:32:50 发布

阅读量3.4k

点赞数 1

分类专栏：炼丹

本文链接：https://blog.csdn.net/sythello/article/details/73824136

版权

博客探讨了新闻标题生成模型的简单处理方式。内容包括：输入反序，输出也反序，以提升模型效果，实验结果显示这种方法有效。

摘要由CSDN通过智能技术生成

目前的思路很简单，就是一个Seq2Seq的模型，本质上是一个AutoEncoder。
模型的输入是一个字符序列（1维向量），是新闻的正文。
首先将序列中的词进行embedding（这里对中文处理，用的是字向量，没有做分词），变成2维的 (word_cnt, dim)。（dim是字向量的维度）
然后encoder是一层LSTM，取最后一步输出向量作为context vector（好像是这个名字？），是1维的 (dim)。之后decoder部分是一层LSTM，每一步输入都为context vector，取每一步输出，是2维的 (title_len, dim)。
最后加一层Dense层，把输出的“词向量”（dim维的向量，每个对应一个词）映射到vocab_size维，然后进行softmax，作为输出词的概率分布。这里的输出为 (title_len, vocab_size)。
Loss采用的是cross_entropy（negative log-likelihood），即对于真正标题中每个正确的词被取到的概率P，取-log，再平均，作为一个样本（一则新闻）的loss函数。

目前简单起见，正文部分仅截取前30个字，标题仅截取前10个字，并且输出标题也限定为10个字。而且一个经验性的处理是把输入、输出都倒过来，也就是正文输入序列反序输入；最后输出的标题也会是反序的，因此再反序一次，变为正序。这样据说效果比较好，实验结果似乎也确实如此。