一种全新的Word Embedding方法——Continuous Bag-of-Words (CBOW) 方法 Word Embeddings & Neural Networks for NLP

作者:禅与计算机程序设计艺术

1.简介

1956年,麻省理工学院的克拉克·韦恩首次提出了“连接主义网络”(connectionist networks)的概念,其后经过十几年的发展,基于神经网络的机器学习技术日益成为主流。在这十年里,多种领域的研究者都涌现出来,推动着人工智能技术的不断进步。在语言识别、机器翻译等方面,人们对神经网络和深度学习的应用越来越关注,这也促使英特尔、微软、谷歌、Facebook、百度等科技巨头纷纷布局人工智能领域。近年来,随着语音识别技术的迅猛发展,端到端的语音识别系统正在形成。端到端的语音识别系统由声学模型、语言模型、语音合成三部分组成,传统的基于HMM/GMM的声学模型已经无法应付如今语音数据爆炸增长带来的巨大挑战。因此,出现了一种新型的端到端的语音识别系统——强化学习(Reinforcement Learning)+注意力机制(Attention Mechanism)。基于强化学习的语音识别器不需要事先知道系统的状态空间,而是在连续执行动作空间中寻找最佳方案。同时,由于注意力机制可以将注意力集中到需要关注的部分,避免对噪声或静音造成干扰,因此也具有很高的准确率。

2017年,加州大学洛杉矶分校的Thomas Schmidt教授,提出了一种全新的Word Embedding方法——Continuous Bag-of-Words (CBOW)。该方法通过考虑上下文来构建词向量,解决了传统词袋模型(Bag-of-Words Model)的一个重要缺陷,即它忽略了单词之间的关系。除了在语言建模方面取得了显著的突破之外,该方法还可以在很多语言理解任务上表现出色,如命名实体识别、文本分类、信息检索、语言模型等。在本文中,我们将介绍该方法的基本原理和原型

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

禅与计算机程序设计艺术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值