ELMo模型解读

最新推荐文章于 2024-05-25 09:37:18 发布

firesodier

最新推荐文章于 2024-05-25 09:37:18 发布

阅读量9.2k

点赞数 6

分类专栏：论文阅读笔记

本文链接：https://blog.csdn.net/firesolider/article/details/88092831

版权

在反复的看了ELMo源码和参考网上各路大神的经验之后，终于对ELMo的架构有了比较清楚的认识。总结一下自己对ELMo的理解，其实还有很多细节没有搞清楚。一.模型架构下面是我画的一个架构简图，对于ELMo不管你输入的是词还是字符，它都会以字符的单位进行后续的字符卷积，对与词的索引是根据词典序号索引的，而字符论文说英文的字符加上一些特殊的标记字符总共不会超过262个...

摘要由CSDN通过智能技术生成

在反复的看了ELMo源码和参考网上各路大神的经验之后，终于对ELMo的架构有了比较清楚的认识。总结一下自己对ELMo的理解，其实还有很多细节没有搞清楚。

一.模型架构

下面是我画的一个架构简图，对于ELMo不管你输入的是词还是字符，它都会以字符的单位进行后续的字符卷积，对与词的索引是根据词典序号索引的，而字符论文说英文的字符加上一些特殊的标记字符总共不会超过262个，所以对字符的索引是通过utf-8编码来索引的，比如单词“word"的utf-8编码是{119,111,114,100},通过这些编码就可以找到某一个固定的字符。对于整个模型的输入（这里只考虑最小单位的输入，也就是模型的每一个样本）的话由于是语言模型，而作者在train_elmo文件中定义的时间步（unroll_steps)是20，也就是一个样本就是X=20个词，对应的Y=20个对应的下一个词。这就是我们之前常说的一个样本X:Y。

在得到我们的样本之后，初始化一个262*16的字符嵌入矩阵（或者二维数组）,这个16就是每一个字符向量的纬度可以自己定义，通过索引可以找到每个词对应字符的向量，然后进行字符卷积，这其中包括最池化，然后在经过2个highway layers。进入BiLSTM。这一层总共有20个LSTMCell,分别对应20个词的向量的输入，论文中的4096也就是源码中的lstm_dim其实就是隐藏层最原始的h,c的纬度。或者说就是单个LSTMCell里面单个门的sigmoid单元的个数，这个参数其实就是tensorflow中tf.nn.rnn_cell.LSTMCell（num_units）中的第一个参数。注意不同地方的命名不一样，非

最低0.47元/天解锁文章

firesodier

关注

6
点赞
踩
23

收藏

觉得还不错? 一键收藏
6
评论
ELMo模型解读

在反复的看了ELMo源码和参考网上各路大神的经验之后，终于对ELMo的架构有了比较清楚的认识。总结一下自己对ELMo的理解，其实还有很多细节没有搞清楚。一.模型架构下面是我画的一个架构简图，对于ELMo不管你输入的是词还是字符，它都会以字符的单位进行后续的字符卷积，对与词的索引是根据词典序号索引的，而字符论文说英文的字符加上一些特殊的标记字符总共不会超过262个...
复制链接

扫一扫

专栏目录