前言:
如果需要对基础概念不了解,可以参考这里。我汇总了论文中涉及的大部分概念,以便更好的理解论文。
目录
NLP十大Baseline论文简述(一) - Word2vec
NLP十大Baseline论文简述(五) - chartextcnn
NLP十大Baseline论文简述(六) -fasttext
NLP十大Baseline论文简述(七) - deep_nmt
NLP十大Baseline论文简述(八) - attention_nmt
NLP十大Baseline论文简述(九) - han_attention
1. Paper:
Finding function in form: Compositional character models for open vocabulary word representation
从字符中生成嵌入:用于开放词表示的组合字符模型
2. 背景介绍
- 词向量的学习对于自然语言处理的应用非常重要,词向量可以在空间上捕获词之间的语法和语义相似性
- 但是词向量机制中的词和词之间是独立的,这种独立性假设是有问题的,词之间形式上的相似性会一定程度造成功能的相似性,尤其在形态丰富的语言中。
- 这种形态和功能之间的关系又不是绝对的,为了学习这种关系,本文在字符嵌入上使用双向LSTM来捕捉这种关系。
- 本文的C2W模型能够很好的捕捉词之间的语法和语义相似度,并且在两个任务上取得最优的结果。
3. 论文摘要
We introduce a model for construct-ing vector representations of words bycomposing characters using bidirectional LSTMs. 我们介绍了一个利用双向LSTMs组合字符来构造单词向量表示的模型。
Relative to traditional word rep-resentation models that have independentvectors for each word type, our modelrequires only a single vector per char-acter type and a fixed set of parame-ters for the compositional model. 相对于传统的每个单词类型都有独立向量的单词表示模型,我们的模型只需要每个字符类型的一个向量和组成模型的一组LSTM固定参数。
De-spite the compactness of this model and,more importantly, the arbitrary natureof the form–function relationship in lan-guage, our “composed” word representa-tions yield state-of-the-art results in lan-guage modeling and part-of-speech tag-ging. 尽管这个模型紧凑,更重要的是,语言中形式-功能关系的任意性,我们的“组合”词表示在语言建模和词性标记方面产生了最先进的结果。
Benefits over traditional baselinesare particularly pronounced in morpholog-ically rich languages (e.g., Turkish). 在形态丰富的语言(如土耳其语)中,相对于传统基线的优势尤其明显。
4. C2W模型
- 词嵌入模型
- 字符嵌入模型
-
C2W缺点
训练时还需要通过LSTM生成词表示,速度比词向量机制要慢
测试时虽然可以通过缓存的方法预先生成一些词向量,但是对于OOV词词表示生成依旧速度慢 -
C2W优点
能够解决OOV词问题
可以捕获字符间的结构信息
可以推理出相似结果的词表示
5. 实验结果
Perplexity:困惑度 越低越好
Parameters:参数 越少越好
在土耳其语中表现尤其好。
6. 论文总结
关键点:
- 词向量机制的两个问题
- 如何学习单词中的形式-功能关系
- C2W模型
创新点:
- 提出了一种新的词表示方法–C2W
- 在语言模型任何和词性标注任务上取得非常好的结果
- 在形态丰富的语言中效果更好
启发点:
- 这种词的独立性假设是存在本质问题的,尤其是在形态学丰富的语言中。在这种形态丰富的语言中,更合理的假设是形态形式词功能上(语法和语义)可能也相似
- 我们这篇工作的目的不是为了超越基准模型,而是为了说明基准模型中的特征工程可以从数据中自动学习出来。