在回顾elmo能发现是从word2vec的一大进步,在bert,XL-Net横空出世的现在,elmo也是起到承上启下的作用,现在就总结下elmo吧。
1.ELMo是一种新型深度语境化词表征,可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模,利用了隐状态Ht
2.通过双向语言模型进行建模,虽然现在看起来不管是前向还是反向拼接在一起有点粗暴
3.前后向语言模型为LSTM所构建
4.Elmo就是把输入x,前向输出hL,后向输出hL
5.ELMO模型的主要结构就是L层的双向LSTM,对于L层的双向lstm语言模型,一共会有有2L+1个representations。在多层模型中,浅层往往蕴含的是句法,语法信息,而高层蕴含的是语义信息,因此你可以选择ELMO中各层的输出作为最后的输出,也可以将各层的输出进行综合作为最后的输出。
6.ELMO的各层参数实际上就是为各种有监督的下游任务准备的,因此ELMO可以被认为是一种迁移学习(transfer learning)。
通过这样的迁移策略,那些对词义消歧有需求的任务就更容易通过训练给第二隐层一个很大的权重,而对词性、句法有明显需求的任务则可能对第一隐层的参数学习到比较大的值(实验结论)。总之,这样便得到了一份”可以被下游任务定制“的特征更为丰富的词向量。
7.相比于Transformer,lstm提取特征的能力还是不够的
411

被折叠的 条评论
为什么被折叠?



