EMLO词向量

最新推荐文章于 2023-01-29 14:56:57 发布

曾德天的博客

最新推荐文章于 2023-01-29 14:56:57 发布

阅读量2.9k

点赞数 2

分类专栏： nlp

本文链接：https://blog.csdn.net/tiantianhuanle/article/details/88218488

版权

nlp 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

                                                                  引言
    本文提出了一种提取深层次语义特征的词向量的方法，该方法是通过一个在大规模语料库上预训练得到的模型来提取词向量。通过本文方法提取到的词向量效果较好，可用于多种类型的NLP任务。

在这里插入图片描述
文中采用了一种名为biLM的模型，该模型是一种“双向”的模型。假设我们有一个包含N个单词的句子，可以把它表示为：t1,t2,…,tN，那么从“前向”的角度来计算这个句子的概率的话，我们可以通过每个词语“之前的”词语来对其进行建模，具体而言如下公式所示：
在这里插入图片描述
从“后向”的角度来计算这个句子的概率的话，

“双向”模型，是兼顾前向和后向的概率的，用公式表示为：

每一层的双向结构如下图所示，每一个框代表lstm单元；

emlo使用了两层的双向lstm，如下图所示；通过对每一层的隐藏状态线性组合，构成最终的词向量。
在这里插入图片描述

而初始输入的词向量，作者推荐使用字符卷积网络来生成。当然为了加速训练，也可以在输入时直接使用word2vec或glove等传统词向量。

将emlo用于下游的任务，论文中提到了三种方式：
（1）和输入词向量x进行concat
（2）和最后一层的隐藏状态concat
（3）同时使用（1）和（2）
在这里插入图片描述
最后使用L2正则化，其中L2 项的系数 \lambda 越大, 越有取各层平均值的意思, 越小, 越可以发挥各个层之间的不同带来的效果. 但是并不是说, 越小越好；
实验结果：
模型在6个数据集上取得了当时的最好成绩：
在这里插入图片描述
对比实验：
作者对比了emlo模型中只使用最后一层和每层都使用（其中\lambda取值不同）的效果，其中每层都使用（\lambda=0.001）效果最好；

作者还展示了emlo词向量再找同义词时的效果：

最后作者还通过一个实验尝试说明emlo词向量每层的h代表什么含义，即分别单独使用每层的隐藏状态进行词义消歧和词性标注任务，通过效果对比，说明了第一层的隐藏状态更能代表语法信息，第二层的隐藏状态更能代表语义信息；
在这里插入图片描述
最后献上一个例子：

参考链接：http://www.linzehui.me/2018/08/12/碎片知识/如何将ELMo词向量用于中文/

曾德天的博客

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
EMLO词向量

引言本文提出了一种提取深层次语义特征的词向量的方法，该方法是通过一个在大规模语料库上预训练得到的模型来提取词向量。通过本文方法提取到的词向量效果较好，可用于多种类型的NLP任务。文中采用了一种名为biLM的模型，该模型是一种“双向”的模型。假设我们有...
复制链接

扫一扫