C2W介绍

JohnBanana

于 2020-07-12 16:05:58 发布

阅读量2k

点赞数

分类专栏： NLP 文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/john_hongming/article/details/107298865

版权

NLP 专栏收录该内容

7 篇文章

订阅专栏

简介：

1、提出了一种新的通过字符来构建词向量的方法，这种方法可以学习到单词中复杂的形式结构，从而在两个任务上得到最优的结果。

2、单词之间不应该是彼此独立的，形式上的一致性会造成功能上的一致性，我们通过双向LSTM来学习这种形式一致性，并且取得了非常好的结果。

3、介绍词向量机制的两个缺点，并且介绍非词向量机制的方法。、

摘要：

1.我们提出了一种新的使用字符和双向LSTM生成词表示的模型。

2.相对于传统的词向量方法，我们的C2W模型需要的参数比较少，主要有两部分，一部分是字符映射成向量的参数，一部分是组合模块LSTM的参数。

3.尽管我们的模型参数少，并且单词中的形式-功能关系很难学习，我们的模型在语言模型和词性标注任务上取得最优的结果。

4.这种优势在形态丰富的语言中更加明显。

C2W模型

主要观察以下两个图：

词嵌入model：word Embeddeding

通过输入的词，获取字典中的词向量，输出embeddeding 词向量

字符嵌入model：Char Embeddeding

输入词，将词分为字符，之后计算字符的向量，通过bi-lstm 生成双向的向量，之后拼接成embeddeding 向量

其中C 是字符表字符的个数， m 是 w输入的长度。

给定输入的向量 x1...xm 通过LSTM 计算生成隐向量，之后迭代计算。其中 $\sigma$ 是sigmod 函数

通过LSTM 中的It（更新）、 ft（忘记）、Ot（输出）三个门可以控制Ct-1 to Ct 的信息

将正向的LSTM 生成的向量和反向的LSTM 向量 sf0-sfm 和 sbm-sb0 组合成

常用语语言model

优缺点：

缺点：

•训练时还需要通过LSTM生成词表示，速度比词向量机制要慢

•测试时虽然可以通过缓存的方法预先生成一些词向量，但是对于OOV词的词表示生成依旧速度慢

优点：

•能够解决OOV词问题

•可以捕获字符间的结构信息

•可以推理出相似结果的词表示

model 的应用

用于需要字符信息的任务，如序列标注

用于OOV词比较多的任务，如对抗样本

启发

•这种词的独立性假设是存在本质问题的，尤其是在形态学丰富的语言中。在这种形态学丰富的语言中，更合理的假设是形态相似的词功能上（语法和语义）可能也相似。

This paper argues that this independence assumption is inherently problematic, in particular in morphologically rich languages (e.g., Turkish). In such languages, a more reasonable assumption would be that orthographic (formal) similarity is evidence for functional similarity (Introduction P1)

•我们这篇工作的目的不是为了超越基准模型，而是为了说明基准模型中的特征工程可以从数据中自动学习出来。

The goal of our work is not to overcome existing benchmarks, but show that much of the feature engineering done in the benchmarks can be learnt automatically from the task specific data. (5.5 Discussion P1)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。