BERT学习笔记

参考文献

主要参考的文章,写的很好
对于整个NLP的介绍都很到位
张俊林老师的介绍

论文原文
官方代码

主要内容

前置知识

bert实际上是采用transformer的结构,可以先了解下transformer的结构。下文也有少许的介绍,具体可以查看 本文

Seq2Seq 到 Attention

传统的机器翻译基本都是基于Seq2Seq模型来做的,该模型分为encoder层与decoder层,并均为RNN或RNN的变体构成,如下图所示:
在这里插入图片描述

注意力机制可以使得在进行文本句子训练的时候,可以很好的掌握上下文信息,并且根据一定的权重去调整对上下文每个词的注意力。
Attention,正如其名,注意力,该模型在decode阶段,会选择最适合当前节点的context作为输入。Attention与传统的Seq2Seq模型主要有以下两点不同。

1)encoder提供了更多的数据给到decoder,encoder会把所有的节点的hidden state提供给decoder,而不仅仅只是encoder最后一个节点的hidden state。如图:
在这里插入图片描述2)decoder并不是直接把所有encoder提供的hidden state作为输入,而是采取一种选择机制,把最符合当前位置的hidden state选出来,具体的步骤如下

确定哪一个hidden state与当前节点关系最为密切

计算每一个hidden state的分数值(具体怎么计算我们下文讲解)

对每个分数值做一个softmax的计算,这能让相关性高的hidden state的分数值更大,相关性低的hidden state的分数值更低。

这里我们以一个具体的例子来看下其中的详细计算步骤:
在这里插入图片描述
把每一个encoder节点的hidden states的值与decoder当前节点的上一个节点的hidden state相乘,如上图,h1、h2、h3分别与当前节点的上一节点的hidden state进行相乘(如果是第一个decoder节点,需要随机初始化一个hidden state),最后会获得三个值,这三个值就是上文提到的hidden state的分数,注意,这个数值对于每一个encoder的节点来说是不一样的,把该分数值进行softmax计算,计算之后的值就是每一个encoder节点的hidden states对于当前节点的权重,把权重与原hidden states相乘并相加,得到的结果即是当前节点的hidden state。可以发现,其实Atttention的关键就是计算这个分值。

明白每一个节点是怎么获取hidden state之后,接下来就是decoder层的工作原理了,其具体过程如下:

第一个decoder的节点初始化一个向量,并计算当前节点的hidden state,把该hidd

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BERT linear是指在BERT模型的基础上添加一个线性层,并通过softmax函数将输出转化为类别。具体步骤如下:首先,预训练好BERT模型,可以使用填空题的数据进行预训练。然后,将训练样本输入整个网络,训练线性层的参数(BERT模型的参数固定)。这个过程可以看作是一个半监督问题,因为只有部分数据有标注。输出的类别与输入的长度一致,比如可以用于词性判断或判断两个句子之间的关系。通过BERT linear模型,可以进行文本分类任务,并取得比基础的BERT模型更好的效果。\[1\] \[2\] \[3\] #### 引用[.reference_title] - *1* [BERT(李宏毅课程)](https://blog.csdn.net/qq_40438523/article/details/121110628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [NLP实战 | BERT文本分类及其魔改(附代码)](https://blog.csdn.net/qq_27590277/article/details/127236825)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [《深度学习学习笔记(六)](https://blog.csdn.net/weixin_43135165/article/details/124288068)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值