CS224N（NLP）组队学习-L13 Contextual Word Representations and Pretraining

Zee_Chao

于 2020-07-03 20:35:04 发布

阅读量156

点赞数

分类专栏： Datawhale Team Learning 文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zee_Chao/article/details/107114805

版权

Datawhale Team Learning 专栏收录该内容

27 篇文章 1 订阅

订阅专栏

注意：博主本身第一次接触NLP。该博文只是把博主目前能够理解的部分记录了下来，以下内容实际上还有很多的细节需要进一步补充！

1. 学习内容

1. ELMo

2. Transformer

3. GPT

4. BERT

本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86

2. ELMo

无论我们使用那种方法去训练一个词向量，当我们对一个中心词进行训练时，上下文的语义也就出现了。此时，我们可以根据上下文的语义去对中心词的词向量进行调整。这样，经过调整的词向量就更能表达它在上下文中的具体含义，从而解决了一词多义的问题。

ELMo分为两个阶段：首先，采用双层双向LSTM对上下文进行编码。此时的上下文使用静态的是静态词向量。对每层的LSTM，将上文向量与下文向量进行拼接作为当前向量，再利用大量的语料来训练这个网络。然后，将一个新的句子作为输入。该句子在ELMo网络中能获得三个向量，将三个向量做加权处理就得到了最后的词向量。

3. GPT

GPT与ELMO相似，也是采用框架类似的两阶段模式。不过，与ELMo稍微不同的是，GPT是使用transformer进行提取特征的，并且是单向的transformer，这意味着GPT只是根据上文来预测某个词。

4. Transformer

Transformer是完全依赖注意力机制来刻画输入和输出之间的全局依赖关系的。这样做有两个好处：第一是可以有效的防止RNN自身的梯度消失问题；第二是允许进行并行训练，大大加快了计算速度。

5. BERT

BERT相对于GPT的变化之处一个是把transformer从单向变成了双向，另一个就是使用了独有的Masked语言模型和Next Sentence Prediction。前者是将输入的文本中 k%的单词遮住，然后预测被遮住的是什么单词；后者则是预测一个句子是否会紧挨着出现在另一个句子后面。

BERT由于采用了双向transformer使其能够更好的捕捉和利用全局信息，所以其效果要优于之前的方法。它大大提高了NLP任务的性能，因此成为了目前的业界宠儿。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS224N（NLP）组队学习-L13 Contextual Word Representations and Pretraining

注意：博主本身第一次接触NLP。该博文只是把博主目前能够理解的部分记录了下来，以下内容实际上还有很多的细节需要进一步补充！1.学习内容1. ELMo2. Transformer3. GPT4. BERT本项目参见https://github.com/datawhalechina/team-learning/tree/master/04%20%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%862. ELMo无论我们使用那.
复制链接

扫一扫

专栏目录

Zee_Chao CSDN认证博客专家 CSDN认证企业博客

码龄9年

135: 原创

4万+: 周排名

129万+: 总排名

11万+: 访问

: 等级

2322: 积分

164: 粉丝

157: 获赞

54: 评论

550: 收藏

私信

关注

分类专栏

最新评论

从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）
帮我喝一杯杨枝甘露: 好真诚的分享，祝好！
检验合法的出栈序列（C++）
Jason Yien: 简单明了提供1个java版本的 [code=java] public static void main(String[] args) { int[] is = { 1, 2, 3, 4, 5, 6, 7 }; int[] os = { 4, 3, 5, 6, 7, 2, 1 }; // Stack<Integer> stack=new Stack<>(); Queue<Integer> que=new ArrayDeque<>(); //出栈入队 for(int i=0;i<os.length;i++){ que.offer(os[i]); } //入栈入栈 for(int i=0;i<is.length;i++){ stack.push(is[i]); // 何时出栈 while(!stack.isEmpty()&&stack.peek()==que.peek()){ stack.pop(); que.poll(); } } // 栈空Yes if(stack.isEmpty()){ System.out.println("Yes"); }else{ System.out.println("No"); } } [/code]
从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）
Zee_Chao: 首先，这个问题不冒昧。其次，出于隐私保护，原谅我不愿意回答
从关山口到五道口（2019年清华计算机考研全程回顾+经验+总结）
陈轻侯: 学长可以冒昧的问一下，你研究生入学的时候多少岁了吗
第六周：机器学习理论与实践的补充
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。