李宏毅nlp学习笔记04：bert和它的好朋友们

最新推荐文章于 2023-04-01 14:56:54 发布

cc 提升ing 变优秀ing

最新推荐文章于 2023-04-01 14:56:54 发布

阅读量412

点赞数 1

分类专栏： nlp视频笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42721412/article/details/109570065

版权

nlp视频笔记专栏收录该内容

17 篇文章 17 订阅

订阅专栏

1.当下追求的模型：

输入文本，训练使得模型可以读懂文本，然后根据不同的任务微调模型！
在这里插入图片描述

2.bert大家庭—芝麻街：

在这里插入图片描述

3.预训练：

把token用嵌入的向量表示。
在这里插入图片描述

针对英文系的前缀后缀等，有fasttext
中文的偏旁部首也能体现一定的意义：
在这里插入图片描述
为了表示相同字在不同词中的意思不同，现在的model都是输入整个句子之后，再给出每个token
的embedding。
即上下文。

这样的模型可以有哪些呢？
bert的encoder中的自注意力机制就是做这个的。

给出10个含有苹果的苹的句子，前5个是吃的苹果，后5个是苹果公司，求这10个字向量的自注意力矩阵。
在这里插入图片描述
模型越做越大：

但一般会搞出“穷人”使用的bert（小型）：

在这里插入图片描述
怎样实现的呢？
比如albert：架构基本相同，原来每一层都是不同的参数，现在设置成每一层都是相同的参数。然而，效果不但基本没有掉，而且还有一定的提升，太神奇了。

4.让模型变小的方式：

在这里插入图片描述

5.当前模型追求让输入的句子变得越来越长，甚至是一本书：

在这里插入图片描述

6.追求将注意力机制的计算量减下去，

当前是n2，
在这里插入图片描述

bert是一个预训练的模型。

7.fine-tune（微调）：因为要具体到各种不同的任务之中去。

比如，有任务：
在这里插入图片描述
多个句子之前应该添加一个特殊的token来告诉模型这是两个不同的句子。

8.输出①：one class：

在这里插入图片描述
有两种方法：
1.加一个cls，然后通过某种方法（注意力机制），把所有信息都融入到它所输出的向量中，然后再做一定的处理。
2，不加cls，把每个token的输出在输入到一个模型中。

9.输出②class for each token：

在这里插入图片描述

10.输出③：

在这里插入图片描述
红色来侦测开始位置，蓝色来侦测结束位置。

11.输出④：

在这里插入图片描述
另外一种方法就是把输出的再当做输入来预测下一个输出（我记得transformer就是这样子的）：

12.

13.fine-tune（微调）：预训练模型+具体任务的模型：

那么，一般有两种，一种是固定预训练模型，调整具体任务的模型。
另一种是把两个模型作为一个大的模型，一起进行调整。
后者的效果一般要好于前者。
在这里插入图片描述

14.第二种微调方法（把预训练和具体任务的模型当做一个大的模型）的缺点：

在这里插入图片描述
不同的具体任务会使得model有着不同的参数，这样model都应该分别存储，几亿个参数的会占据很大的空间。

15.Adapter：解决上述问题：

adapter中的參數只是model中的一小部分，在进行调节的时候，也只是调节这一部分的参数，因此可以降低需要存储的量。
在这里插入图片描述

16.最后的处理：

有一种处理是：输入的参数经过第一层的模型输出一个向量，这个向量再经过第二层的模型输出一个向量，作为最终的向量。
另一种方法是，第一次输出和第二次输出的权重和作为最终的向量。

在这里插入图片描述

cc 提升ing 变优秀ing

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
李宏毅nlp学习笔记04：bert和它的好朋友们

1.当下追求的模型：输入文本，训练使得模型可以读懂文本，然后根据不同的任务微调模型！2.bert大家庭—芝麻街：3.预训练：把token用嵌入的向量表示。针对英文系的前缀后缀等，有fasttext中文的偏旁部首也能体现一定的意义：为了表示相同字在不同词中的意思不同，现在的model都是输入整个句子之后，再给出每个token的embedding。即上下文。这样的模型可以有哪些呢？bert的encoder中的自注意力机制就是做这个的。给出10个含有苹果的苹的句子，前5个是吃的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。