NLP十大Baseline论文简述(三) - C2W

最新推荐文章于 2022-03-26 17:40:55 发布

HHVic

最新推荐文章于 2022-03-26 17:40:55 发布

阅读量337

点赞数 1

分类专栏： NLP Paper 文章标签：自然语言处理深度学习神经网络

本文链接：https://blog.csdn.net/landian0531/article/details/120451113

版权

NLP Paper 专栏收录该内容

10 篇文章 8 订阅

订阅专栏

文章目录

前言：
目录
1. Paper：
2. 背景介绍
3. 论文摘要
4. C2W模型
5. 实验结果
6. 论文总结

前言：

如果需要对基础概念不了解，可以参考这里。我汇总了论文中涉及的大部分概念，以便更好的理解论文。

1. Paper：

Finding function in form: Compositional character models for open vocabulary word representation
从字符中生成嵌入：用于开放词表示的组合字符模型

2. 背景介绍

词向量的学习对于自然语言处理的应用非常重要，词向量可以在空间上捕获词之间的语法和语义相似性
但是词向量机制中的词和词之间是独立的，这种独立性假设是有问题的，词之间形式上的相似性会一定程度造成功能的相似性，尤其在形态丰富的语言中。
这种形态和功能之间的关系又不是绝对的，为了学习这种关系，本文在字符嵌入上使用双向LSTM来捕捉这种关系。
本文的C2W模型能够很好的捕捉词之间的语法和语义相似度，并且在两个任务上取得最优的结果。

3. 论文摘要

We introduce a model for construct-ing vector representations of words bycomposing characters using bidirectional LSTMs. 我们介绍了一个利用双向LSTMs组合字符来构造单词向量表示的模型。
Relative to traditional word rep-resentation models that have independentvectors for each word type, our modelrequires only a single vector per char-acter type and a fixed set of parame-ters for the compositional model. 相对于传统的每个单词类型都有独立向量的单词表示模型，我们的模型只需要每个字符类型的一个向量和组成模型的一组LSTM固定参数。
De-spite the compactness of this model and,more importantly, the arbitrary natureof the form–function relationship in lan-guage, our “composed” word representa-tions yield state-of-the-art results in lan-guage modeling and part-of-speech tag-ging. 尽管这个模型紧凑，更重要的是，语言中形式-功能关系的任意性，我们的“组合”词表示在语言建模和词性标记方面产生了最先进的结果。

Benefits over traditional baselinesare particularly pronounced in morpholog-ically rich languages (e.g., Turkish). 在形态丰富的语言(如土耳其语)中，相对于传统基线的优势尤其明显。