EMLO词向量

                                                                  引言
    本文提出了一种提取深层次语义特征的词向量的方法,该方法是通过一个在大规模语料库上预训练得到的模型来提取词向量。通过本文方法提取到的词向量效果较好,可用于多种类型的NLP任务。

在这里插入图片描述
文中采用了一种名为biLM的模型,该模型是一种“双向”的模型。 假设我们有一个包含N个单词的句子,可以把它表示为:t1,t2,…,tN,那么从“前向”的角度来计算这个句子的概率的话,我们可以通过每个词语“之前的”词语来对其进行建模,具体而言如下公式所示:
在这里插入图片描述
从“后向”的角度来计算这个句子的概率的话,
在这里插入图片描述
“双向”模型,是兼顾前向和后向的概率的,用公式表示为:
在这里插入图片描述
每一层的双向结构如下图所示,每一个框代表lstm单元;
在这里插入图片描述
emlo使用了两层的双向lstm,如下图所示;通过对每一层的隐藏状态线性组合,构成最终的词向量。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
而初始输入的词向量,作者推荐使用字符卷积网络来生成。当然为了加速训练,也可以在输入时直接使用word2vec或glove等传统词向量。
在这里插入图片描述
将emlo用于下游的任务,论文中提到了三种方式:
(1)和输入词向量x进行concat
(2)和最后一层的隐藏状态concat
(3)同时使用(1)和(2)
在这里插入图片描述
最后使用L2正则化,其中L2 项的系数 \lambda 越大, 越有取各层平均值的意思, 越小, 越可以发挥各个层之间的不同带来的效果. 但是并不是说, 越小越好;
实验结果:
模型在6个数据集上取得了当时的最好成绩:
在这里插入图片描述
对比实验:
作者对比了emlo模型中只使用最后一层和每层都使用(其中\lambda取值不同)的效果,其中每层都使用(\lambda=0.001)效果最好;
在这里插入图片描述
作者还展示了emlo词向量再找同义词时的效果:
在这里插入图片描述
最后作者还通过一个实验尝试说明emlo词向量每层的h代表什么含义,即分别单独使用每层的隐藏状态进行词义消歧和词性标注任务,通过效果对比,说明了第一层的隐藏状态更能代表语法信息,第二层的隐藏状态更能代表语义信息;
在这里插入图片描述
最后献上一个例子:
在这里插入图片描述
参考链接:http://www.linzehui.me/2018/08/12/碎片知识/如何将ELMo词向量用于中文/

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值