Facebook最新研究:无需额外训练AI,即可加速NLP任务

作者 | KYLE WIGGERS

译者 | Kolen

出品 | AI科技大本营(ID:rgznai100)

 

自然语言模型通常要解决两个难题:将句子前缀映射到固定大小的表示形式,并使用这些表示形式来预测文本中的下一个单词。

在最近的一篇论文(https://arxiv.org/pdf/1911.00172.pdf)中,Facebook AI Research的研究人员宣称,第一个问题——映射问题——可能比预测问题更容易,他们在具有“最近邻”检索机制的语言模型上建立了一个假设来扩充语言模型。他们称,它可以记住罕见的模式,并且无需额外的培训即可达到最新的复杂性评分(词汇和语法多样性的衡量标准)。

正如研究人员所解释的那样,语言模型将概率分配给单词序列,从而使它们根据标记(例如单词)的上下文序列来估计目标标记的分布(发生不同可能结果的概率)。他们所提出的方法KNN-LM将上下文映射到由预先训练的语言模型计算的固定长度的数学表示形式。给定一个训练示例,定义了一个键值对,其中键是上下文的数学表示,而值是目标单词。

在测试时,KNN-LM获取输入的上下文,并且在接下来的单词和上下文表上生成下一个单词的输出分布和上下文表示。它根据一个距离函数来检索其最近邻,即此时它计算邻域上的分布,同时汇总每个词汇项在检索到的目标中所有出现的概率。

研究人员注意到,KNN-LM与产生固定大小的上下文表示的任何语言模型都兼容。在这项研究中,这使我们能够在基于Wikipedia文章的1.03亿个分词组成的数据集上训练基于Transformer的模型,其中25万个分词保留用于开发和测试。

在实验中,KNN-LM在测试时“显著”优于基线,该团队将其归因于KNN-LM更倾向于学习具有隐含相似性概念的上下文表示函数。KNN-LM增加了一些计算开销-大约需要两个小时才能在单个处理器上为1.03亿个条目构建缓存,而运行验证集大约需要25分钟的时间。但是该团队指出,将模型并行化是“微不足道的”,而且不需要基于GPU来训练模型。

该研究的共同作者写道:“一般来说,我们发现KNN-LM最有用的例子通常包含罕见的模式,例子包括事实知识、命名实体和训练集中几乎重复的句子。在这些情况下,为训练实例和测试实例分配相似的表示形式……比隐式记住模型参数中的下一个单词似乎更容易解决问题。”

原文链接:

https://venturebeat.com/2020/02/19/facebooks-ai-speeds-up-natural-language-processing-without-additional-training/

【end】

精彩推荐

CSDNx巨杉大学联合认证学习,免费开放!“分布式数据库集训营”帮助您从零开始学习分布式数据库、分布式架构知识,现在加入活动,完成课程还将专属礼品。快来参加吧~

了解详情:http://www.sequoiadb.com/cn/university-camp

推荐阅读

  • 你点的每个“在看”,我都认真当成了AI

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值