bert细节理解

最新推荐文章于 2024-06-26 11:20:18 发布

猫爱吃鱼the

最新推荐文章于 2024-06-26 11:20:18 发布

阅读量1.2k

点赞数 2

分类专栏： NLP专栏文章标签： nlp

本文链接：https://blog.csdn.net/qq_39783265/article/details/105376509

版权

NLP专栏专栏收录该内容

8 篇文章 2 订阅

订阅专栏

bert中的升维3072，能更好的分离特征。

bert中最后对一维卷积进行池化，好处在于增加了模型的泛化能力，不同的池化方式(平均值、最大值）会带来不同的结果。
在这里插入图片描述
一维数据进行池化，利用padding=“SAME”，不会改变尺寸。
https://blog.csdn.net/Tourior/article/details/79544326

logits = self.l0(out)
start_logits, end_logits = logits.split(1, dim=-1)

logits.split将（64，128，2）变成2个（64，128，1）

start_logits = start_logits.squeeze(-1)
end_logits = end_logits.squeeze(-1)
print(start_logits.shape)
print(end_logits.shape)

接着使用squeeze函数，将（64，128，1）变成（64,128）
在这里插入图片描述
模型总共有13层，第一层是嵌入层，后面是enconde层

交叉熵nn.CrossEntropyLoss()

nn.CrossEntropyLoss()这个损失函数用于多分类问题虽然说的是交叉熵，但是和我理解的交叉熵不一样。nn.CrossEntropyLoss()是nn.logSoftmax()和nn.NLLLoss()的整合,可以直接使用它来替换网络中的这两个操作。下面我们来看一下计算过程。
首先输入是size是(minibatch,C)。这里的C是类别数。损失函数的计算如下：
在这里插入图片描述

举个栗子，我们一共有三种类别，批量大小为1（为了好计算），那么输入size为（1,3），具体值为torch.Tensor([[-0.7715, -0.6205,-0.2562]])。标签值为target = torch.tensor([0])，这里标签值为0，表示属于第0类。loss计算如下：

import torch
import torch.nn as nn
import math

entroy=nn.CrossEntropyLoss()
input=torch.Tensor([[-0.7715, -0.6205,-0.2562]])
target = torch.tensor([0])
output = entroy(input, target)
print(output)
#根据公式计算