Bert注意力计算过程的维度变化分析

最新推荐文章于 2024-05-25 09:20:33 发布

河鳗404

最新推荐文章于 2024-05-25 09:20:33 发布

阅读量1.1k

点赞数 6

分类专栏：深度学习自然语言处理文章标签：深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_42439053/article/details/119214348

版权

Bert注意力计算过程的维度变化分析

代码分析目标：了解Bert注意力计算过程中的维度变化

变量相关说明

变量	batch_size	sequence_len	self.num_attention_heads	config.hidden_size
含义解释	单批次训练量	单序列长度	抽头个数	Bert隐层大小
符号定义	B	S	N	H
取值举例	B: 32	S: 128	N: 8	H: 768

源码分析

# 注：取自 hugging face 团队实现的基于 pytorch 的 BERT 模型
class BERTSelfAttention(nn.Module):
    # BERT 的 Self-Attention 类
    def __init__(self, config):
        # 初始化函数
        super(BERTSelfAttention, self).__init__()
        # H必须能被N整除(bert内H为768)
        if config.hidden_size % config.num_attention_heads != 0:
            raise ValueError(
                "The hidden size (%d) is not a multiple of the number of attention "
                "heads (%d)" % (config.hidden_size, config.num_a

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

河鳗404

关注关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Bert注意力计算过程的维度变化分析

Bert注意力计算过程的维度变化分析代码分析目标：了解Bert注意力计算过程中的维度变化变量相关说明源码分析代码分析目标：了解Bert注意力计算过程中的维度变化变量相关说明变量batch_sizesequence_lenself.num_attention_headsconfig.hidden_size含义解释单批次训练量单序列长度抽头个数Bert隐层大小符号定义BSNH取值举例B: 32S: 128N: 8H: 768源码分析#
复制链接

扫一扫