你和语言模型,谁的填空能力更强?

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!讲者提出了填空语言模型(Blank Language Model, BLM),该模型通过动态创建和填充空白来生成序列。空白用于控...
摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

讲者提出了填空语言模型(Blank Language Model, BLM),该模型通过动态创建和填充空白来生成序列。空白用于控制要扩展序列的那一部分,使BLM成为各种文本编辑任务的理想选择。该模型可以从单个空白或在指定位置带有空白的部分完成文本开始,迭代地确定要在空白中放入哪个单词以及是否插入新的空白,并在没有新的空白填充时停止生成。使用边缘似然的下界可以有效地训练BLM。在填充缺失文本的任务上,BLM在准确性和流利性方面均明显优于所有其他方法。在情感迁移和修复古文字的实验中,证明该框架具有广泛的应用潜力。

沈添笑:麻省理工学院电气工程与计算机科学系博士生,导师是Regina Barzilay和Tommi Jaakkola教授。她的研究兴趣是自然语言处理和机器学习,尤其是文本生成。

一、动机:传统语言模型的局限性

传统的语言模型通常是从左到右对文本序列进行建模,其模式是,首先生成第一个词,然后以第一个词作为condition来生成第二个词,继而以第二个词为condition生成第三个词,如此迭代计算后一个词。

该方法的优势在于算法简单、有效。但大多情况下,并不需要从头开始生成文本,而是已有部分文本,想自动生成剩下的部分内容。比如,文本编辑,是基于已有的draft,修改文本中任意位置的内容;或是template filling,针对一些表格等具有固定格式的文件,比如医疗或者法律文件等进行填空;或是text restoration,比如一些文件可能在任意位置缺失相关内容,需要做的是复原损失部分。由于Left-to-Right Language Model仅仅考虑blanks左边的文本语境,不能很好地对这些应用进行建模。

图1 left-to-right language model 的原理及应用

因此,讲者提出了Blank Language Model(BLM),其输入形式为任意文本,blanks可存在于文本的任意位置;每一个blank可以对应任意多个单词;且BLM模型会结合上下文语境决定需要填充几个单词。BLM与Mask Language Model的区别在于,Mask Language Model的一个mask只能对应一个单词,因此如果预先不知道blank中间丢失多少个单词,就不能使用Mask Language Model来实现。

图2 Blank Language Model算法的优势

二、实现:什么是BLM?

1)BLM工作原理介绍

BLM具体是如何实现填空的呢?首先存在一个画布,有单词和blank,其中blank用来控制单词能被放置的位置;然后BLM模型在这个画布上动态进行修改,每一步都会选择一个待填充的blank。

由于每个blank可以对应任意数量的词&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值