如何看待自然语言处理未来的走向?

点击上方,选择星标,每天给你送干货!


来自 | 知乎

作者 | 景初

地址 | https://www.zhihu.com/question/443286636/answer/1730607101

编辑 | 机器学习算法与自然语言处理

本文仅作学术分享,若侵权,请联系后台删文处理

谈一下自己的一己之见。

  1. 和CV等领域的融合越来越密切,多模态研究成为热点。

  2. 融合知识的预训练模型系统。

1. 多模态研究是未来重要的研究方向

多模态研究之前主要是CV的研究者在研究,投的期刊会议大都是CV领域。从Image Caption到后来的Visual Commensense Reasoning,CV领域的很多任务其实都是多模态的,需要考虑自然语言文本等特征。这些任务传统的解决办法主要是使用图像编码器(ResNet等),文本编码器(RNN等),再加上一些其他的技巧如注意力机制,模型的架构和思路没有很多突破。

从大规模预训练语言模型出现之后(BERT等),多模态研究迎来了新的发展热潮。基于Transformer架构的编码器具有强大的编码能力,近两年来很多关于多模态预训练的工作也开始展开。多模态预训练模型也是基于多层Transformer架构,文本和图像一起输入模型,通过多头注意力机制让模型充分地学习文本和图像的关联依赖。模型(VL-BERT等)在多模态下游任务上也取得了SOTA的效果。

多模态预训练的工作几乎都是用来解决多模态任务的(或者说一些和自然语言有关的CV任务),很少有工作探索通过多模态预训练帮助自然语言处理任务。EMNLP 2020复旦大学的一篇工作做出了一些探索《Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning》,通过解耦的结构,通过多模态数据的预训练,帮助解决自然语言理解任务。通过多模态数据帮助自然语言处理会是迈向大一统模型的必经阶段。

聊到多模态,就不得不提到OpenAI的几个工作(Image-GPT,CLIP,DALLE)。DALLE的效果惊艳,但仍然是基于Transformer结构的,采用自回归损失函数的预训练模型。DALLE通过使用单独的生成模型(VQVAE)帮助生成图像。本质上和上面的多模态预训练模型没有架构上的突破,但是DALLE往前迈了一步,即可以直接通过自然语言生成图像。OpenAI进一步丰富了大家的想象力,结合多模态数据的自然语言处理必将成为未来发展的重要方向。

2. 融合知识的预训练模型系统

手机码字比较慢,之后再更。。。



说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:(1)点击页面最上方“深度学习自然语言处理”,进入公众号主页。(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。
感谢支持,比心。投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。记得备注呦

推荐两个专辑给大家:专辑 | 李宏毅人类语言处理2020笔记专辑 | NLP论文解读专辑 | 情感分析欢迎关注,一起探索NLP的世界~整理不易,还望给个在看!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值