​搜出来的文本:从文本生成到搜索采样

本文探讨了基于离散优化思想的文本生成任务,利用量化目标构建分布,通过特定采样算法如拒绝采样、重要性采样等,实现无需标签数据的有条件文本生成。文章介绍了这些采样算法在文本生成应用中的作用,强调了明确目标和理解采样困难的重要性。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|苏剑林

单位|追一科技

研究方向|NLP、神经网络

最近,笔者入了一个新坑:基于离散优化的思想做一些文本生成任务。简单来说,就是把我们要生成文本的目标量化地写下来,构建一个分布,然后搜索这个分布的最大值点或者从这个分布中进行采样,这个过程通常不需要标签数据的训练。

由于语言是离散的,因此梯度下降之类的连续函数优化方法不可用,并且由于这个分布通常没有容易采样的形式,直接采样也不可行,因此需要一些特别设计的采样算法,比如拒绝采样(Rejection Sampling)、MCMC(Markov Chain Monte Carlo)、MH 采样(Metropolis-Hastings Sampling)、吉布斯采样(Gibbs Sampling),等等。

有些读者可能会觉得有些眼熟,似乎回到了让人头大的学习 LDA(Latent Dirichlet Allocation)的那些年?没错,上述采样算法其实也是理解 LDA 模型的必备基础。本文我们就来回顾这些形形色色的采样算法,它们将会出现在后面要介绍的丰富的文本生成应用中。

明确目标

很多时候,我们需要根据一些特定的信息 来生成目标文本 ,用数学的话说就是条件语言模型 ,不过我们无法得到足够多的语料对 去直接监督训练一个条件语言模型,而是只能训练一个无条件的语言模型 ,但我们又可以人为地设计一个指标来定量描述 之间的联系。

那么在这种情况下,如何根据无条件的语言模型 之间的联系来做有条件的文本生成,便成为了我们的研究对象。我们可以称之为“受限文本生成(Constrained Text Generation)”

举例来说,用关键词造句,那么 就是关键词的集合,我们可以定义示性函数:

继而定义:

保证了生成句子的流畅性, 保证了生成句子包含所要求的关键词,那么问题就可以变成最大化操作 或采样操作 。当然,这里的 还不是概率分布,要完成归一化后才是真正的概率分布:

但分母通常是难以显式计算出来的。那也就是说,我们对待采样分布也只了解到它正比于某个函数 ,而不知道精确的分布表达式。

类似的例子并不少,比如说文本摘要。什么是文本摘要呢?其实就是用更少的文字 尽可能表达出跟原文 一样的意思,这时候我们可以定义:

这里的 是某个文本相似度函数,而

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值