预训练模型系列之ELMo

最新推荐文章于 2024-05-25 09:37:18 发布

大苏苏

最新推荐文章于 2024-05-25 09:37:18 发布

阅读量299

点赞数 1

分类专栏：预训练模型文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38150575/article/details/117701193

版权

预训练模型专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文探讨了预训练模型的发展，从传统词向量模型的局限性出发，重点介绍了ELMo的双向LSTM结构和动态词表示，以及BERT模型的进步。通过比较，揭示了ELMo的上下文依赖性和BERT的参数共享。同时，文章涉及了注意力机制在这些模型中的应用和挑战。

摘要由CSDN通过智能技术生成

简介

预训练模型在各种语言任务重十分常见，加上近期的课程涉及到ELMo, GPT 和BERT这三种模型，决定加深理解整理一波，如有理解错误的地方，还望各位网友不吝赐教！本章会涉及到注意力机制的部分。

模型起源：传统词模型假设每个词语对应唯一的向量表示，且为静态向量，无法处理一词多义现象。

ELMo

本质

Embeddings from Language Models¹, 双向LSTM

模型

1.首先学习双向LSTM²
参考张家俊老师课件

2.得到词向量表示
在这里插入图片描述

$\gamma$ :任务相关权重
$s_j$ : 每层的softmax输出的权重，
$\bm{h}_{k,j}^{LM}$ : 前向和后向表示的拼接每层都有的一个表示

如何得到词 $x_j$ 的动态表示？
静态表示是有的，动态即用到了上下文信息。输入句子根据最大似然规则训练后，会得到相关隐层参数h（可以理解为一种编码），即为与句子上下文相关的表示，根据不同层的权重加和得到最后的表示。

特点

可以针对不同上下文对某个语段得到不同的表示。在大规模语料上学习的表示效果很好。但是只有两层LSTM，学得的语言规律也比较有限。其结果会因为梯度消失的问题受到进一步的影响，而且无法并行处理。并且，下游监督任务中的微调模型是从头开始学习的，不共享预训练模型的参数。

Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv preprint arXiv:1802.05365, 2018. ↩︎
张家俊老师《预处理模型》PPT ↩︎

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
预训练模型系列之ELMo

预训练模型合集简介ELMo[^1]本质模型特点GPTBERT简介GPT和Bert模型十分常见，加上近期的课程涉及到这三种模型，决定加深理解整理一波，如有理解错误的地方，还望各位网友不吝赐教！模型起源：传统词模型假设每个词语对应唯一的向量表示，且为静态向量，无法处理一词多义现象。ELMo[^1]本质Embeddings from Language Models, 双向LSTMMarkdown将文本转换为 HTML。模型特点在大规模预料上学习的表示效果很好GPTBERT...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。