BERT的通俗理解预训练模型微调

最新推荐文章于 2024-01-20 23:33:57 发布

weixin_30849591

最新推荐文章于 2024-01-20 23:33:57 发布

阅读量8.6k

点赞数 3

文章标签：人工智能

原文链接：http://www.cnblogs.com/jfdwd/p/11202021.html

版权

BERT是一种预训练模型，通过Masked Language Model和Next Sentence Prediction任务学习上下文语义。预训练后，模型可针对特定任务进行微调。在输入部分，BERT使用词嵌入、段落嵌入和位置嵌入。模型适用于序列标注、分类任务和句子关系判断等NLP任务，但预训练阶段的[MASK]标记和低预测比例可能导致较慢收敛。

摘要由CSDN通过智能技术生成

1、预训练模型
BERT是一个预训练的模型，那么什么是预训练呢？举例子进行简单的介绍
假设已有A训练集，先用A对网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的网络结构，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的参数随着B任务的训练进行不断的改变，称为“fine-tuning”，即更好地把参数进行调整使得更适合当前的B任务

优点：当任务B的训练数据较少时，很难很好的训练网络，但是获得了A训练的参数，会比仅仅使用B训练的参数更优

Task #1: Masked LM
为了训练双向特征，这里采用了Masked Language Model的预训练方法，随机mask句子中的部分token，然后训练模型来预测被去掉的token。

具体操作是：

随机mask语料中15%的token，然后将masked token 位置输出的final hidden vectors送入softmax，来预测masked token。

这里也有一个小trick，如果都用标记[MASK]代替token会影响模型，所以在随机mask的时候采用以下策略：

1）80%的单词用[MASK]token来代替

my dog is hairy → my dog is [MASK]
2）10%单词用任意的词来进行代替

最低0.47元/天解锁文章

weixin_30849591

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
BERT的通俗理解预训练模型微调

1、预训练模型 BERT是一个预训练的模型，那么什么是预训练呢？举例子进行简单的介绍假设已有A训练集，先用A对网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的网络结构，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。