NLP基础（四）：Seq2Seq模型Beam search、Scheduled Sampling和ROUGE

最新推荐文章于 2023-12-04 17:07:03 发布

博途慧算

最新推荐文章于 2023-12-04 17:07:03 发布

阅读量602

点赞数

分类专栏： # NLP基础 NLP 文章标签：机器学习算法自然语言处理

本文链接：https://blog.csdn.net/lygeneral/article/details/106724382

版权

本文介绍了Seq2Seq模型在文本生成任务中的优化策略，包括 Beam Search 用于避免局部最优，Scheduled Sampling 提升模型泛化能力，以及 ROUGE 作为文本摘要的评价标准。 Beam Search 在有限计算资源下找到Top k最优解，Scheduled Sampling 在训练过程中逐步减少真实输入，增加模型自我生成部分，而ROUGE-N和ROUGE-L则用于量化生成摘要与参考摘要的相似度。

摘要由CSDN通过智能技术生成

1.Beam search

在文本生成任务中，为了寻找最好的结果可采用greedy search贪心搜索，即每一个时间步都取出一个条件概率最大的输出，再将从开始到当前步的结果作为输入去获得下一个时间步的输出，直到模型给出生成结束的标志。

但是贪心搜索的方式可能会进入局部最优解，甚至找不到较好的结果。因此在计算资源有限的情况下采取Beam search的方式，在每次运算结果中寻找Top k个结果，不断进行迭代。如下图，每一步计算完成后会得到三个最优的结果。在进行某一步计算时，选出当前最优的三个可能，并且与前一步的结果即最优的三个组合进行两两组合，选择出最优的三个组合。然后不断迭代至 $< e n d >$ 。该方法应用在模型的测试生成阶段。

当Beam serch size =1时，退化为greedy search。

# greedy search
for t in range(params['max_dec_len']):
    # 单步预测
    _, pred, dec_hidden = model.decoder(dec_input, dec_hidden, enc_output, context_vector)

    context_vector, _ = model.attention(dec_hidden, enc_output)
    # 选择出现概率最大的词
    predicted_ids = tf.argmax(pred, axis=1).numpy()

    for index, predicted_id in enumerate(predicted_ids):
        predicts[index] += vocab.id_to_word(predicted_id) + ' '
    
    dec_input = tf.expand_dims(predicted_ids, 1)

2.Scheduled Sampling

A method for avoiding the problem of exposure bias.

Scheduled Sampling是⼀种解决训练和生成时输⼊数据分布不⼀致的方法，能够有效提升模型的泛化能力。在训练早期该⽅法主要使用目标序列中的真实元素作为解码器输⼊，可以将模型从随机初始化的状态快速引导⾄⼀个合理的状态。随着训练的进行，该⽅法会逐渐更多地使用生成的元素作为解码器输⼊，以解决数据分布不⼀致的问题。该方法应用在模型的训练阶段，生成阶段不可使用。公式如下：

$x_t = \varepsilon x_{t-1} +(1-\varepsilon) \hat x_{t-1}$

1）线性
$\varepsilon_i = max(\varepsilon, k-ci)$ ，其中 $\varepsilon$ 为最小阈值

最低0.47元/天解锁文章

博途慧算

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP基础（四）：Seq2Seq模型Beam search、Scheduled Sampling和ROUGE

1.Beam search参考资料[1]DIVERSE BEAM SEARCH[1]Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks[]ROUGE- A Package for Automatic Evaluation of Summaries
复制链接

扫一扫

专栏目录