NLP十大Baseline论文简述(三) - C2W

前言:

如果需要对基础概念不了解,可以参考这里。我汇总了论文中涉及的大部分概念,以便更好的理解论文。

目录

NLP十大Baseline论文简述(一) - Word2vec

NLP十大Baseline论文简述(二) - GloVe

NLP十大Baseline论文简述(三) - C2W

NLP十大Baseline论文简述(四) -textcnn

NLP十大Baseline论文简述(五) - chartextcnn

NLP十大Baseline论文简述(六) -fasttext

NLP十大Baseline论文简述(七) - deep_nmt

NLP十大Baseline论文简述(八) - attention_nmt

NLP十大Baseline论文简述(九) - han_attention

NLP十大Baseline论文简述(十) - sgm

1. Paper:

Finding function in form: Compositional character models for open vocabulary word representation
从字符中生成嵌入:用于开放词表示的组合字符模型

2. 背景介绍

  • 词向量的学习对于自然语言处理的应用非常重要,词向量可以在空间上捕获词之间的语法和语义相似性
  • 但是词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其在形态丰富的语言中。
  • 这种形态和功能之间的关系又不是绝对的,为了学习这种关系,本文在字符嵌入上使用双向LSTM来捕捉这种关系。
  • 本文的C2W模型能够很好的捕捉词之间的语法和语义相似度,并且在两个任务上取得最优的结果。

3. 论文摘要

We introduce a model for construct-ing vector representations of words bycomposing characters using bidirectional LSTMs. 我们介绍了一个利用双向LSTMs组合字符来构造单词向量表示的模型。
Relative to traditional word rep-resentation models that have independentvectors for each word type, our modelrequires only a single vector per char-acter type and a fixed set of parame-ters for the compositional model. 相对于传统的每个单词类型都有独立向量的单词表示模型,我们的模型只需要每个字符类型的一个向量和组成模型的一组LSTM固定参数。
De-spite the compactness of this model and,more importantly, the arbitrary natureof the form–function relationship in lan-guage, our “composed” word representa-tions yield state-of-the-art results in lan-guage modeling and part-of-speech tag-ging. 尽管这个模型紧凑,更重要的是,语言中形式-功能关系的任意性,我们的“组合”词表示在语言建模和词性标记方面产生了最先进的结果。

Benefits over traditional baselinesare particularly pronounced in morpholog-ically rich languages (e.g., Turkish). 在形态丰富的语言(如土耳其语)中,相对于传统基线的优势尤其明显。

4. C2W模型

  • 词嵌入模型

在这里插入图片描述

  • 字符嵌入模型

在这里插入图片描述

  • C2W缺点
    训练时还需要通过LSTM生成词表示,速度比词向量机制要慢
    测试时虽然可以通过缓存的方法预先生成一些词向量,但是对于OOV词词表示生成依旧速度慢

  • C2W优点
    能够解决OOV词问题
    可以捕获字符间的结构信息
    可以推理出相似结果的词表示

5. 实验结果

Perplexity:困惑度 越低越好
Parameters:参数 越少越好
在土耳其语中表现尤其好。
在这里插入图片描述

6. 论文总结

关键点:

  • 词向量机制的两个问题
  • 如何学习单词中的形式-功能关系
  • C2W模型

创新点:

  • 提出了一种新的词表示方法–C2W
  • 在语言模型任何和词性标注任务上取得非常好的结果
  • 在形态丰富的语言中效果更好

启发点:

  • 这种词的独立性假设是存在本质问题的,尤其是在形态学丰富的语言中。在这种形态丰富的语言中,更合理的假设是形态形式词功能上(语法和语义)可能也相似
  • 我们这篇工作的目的不是为了超越基准模型,而是为了说明基准模型中的特征工程可以从数据中自动学习出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值