python variable shape 不匹配_bert/embeddings/LayerNorm/beta shape不匹配

最新推荐文章于 2023-11-30 09:35:38 发布

Samuel Solomon

最新推荐文章于 2023-11-30 09:35:38 发布

阅读量1k

点赞数

文章标签： python variable shape 不匹配

本文链接：https://blog.csdn.net/weixin_30184337/article/details/111910477

版权

博客探讨了ALBERT_zh模型与Google ALBERT模型之间的参数和结构差异，包括word embeddings、LayerNorm等部分的维度不一致，导致加载时的形状不匹配问题。由于变量名和处理位置的不同，直接使用Google的ALBERT代码来加载ALBERT_zh模型是不可行的。

摘要由CSDN通过智能技术生成

与google的模型文件对比可以发现它们的参数与模型结构有些许差别，比如：

albert_zh里的albert_large_zh模型参数：

{'bert/embeddings/word_embeddings': [21128, 128],

'bert/embeddings/word_embeddings_2': [128, 1024],

'bert/embeddings/token_type_embeddings': [2, 1024],

'bert/embeddings/position_embeddings': [512, 1024],

'bert/embeddings/LayerNorm/beta': [1024],

'bert/embeddings/LayerNorm/gamma': [1024],

'bert/encoder/layer_shared/attention/self/query/kernel': [1024, 1024],

'bert/encoder/layer_shared/attention/self/query/bias': [1024],

'bert/encoder/layer_shared/attention/self/key/kernel': [1024, 1024],

'bert/encoder/layer_shared/attention/self/key/bias': [1024],

'bert/encoder/layer_shared/attention/self/value/kernel': [1024, 1024],

'bert/encoder/layer_shared/attention/self

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Samuel Solomon

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Tensor张量shape不匹配导致执行报错：ValueError: For ‘Sub‘, x.shape and y.shape are supposed to broadcast

skytttttt9394的博客

02-22

452

硬件环境(Ascend/GPU/CPU): GPU软件环境:– MindSpore 版本: 1.7.0执行模式：动态图(PYNATIVE_MODE) – Python 版本: 3.7.6– 操作系统平台: linux。

bert源码(pytorch)超详细解读！！！

ZJF的博客

05-05

3299

modeling.py 此文章是对transformers的bert源码的解读 # coding=utf-8 from __future__ import absolute_import, division, print_function, unicode_literals import copy import json import logging import math import os import shutil import tarfile import tempfile import sys

参与评论您还未登录，请先登录后发表或查看评论

Bert模型预测时出现的问题:ValueError: Assignment map with scope only name bert/embeddings/layer_normalization s

m0_69033523的博客

04-18

399

将modeling.py文件中的。

【问题解决】BERT模型使用及一个问题：NotFoundError: Key bert_1/embeddings/LayerNorm/beta not found in checkpoint

一只热爱奔跑的程序猿

01-15

1万+

关于BERT模型的调用，这几天基本上是摸得比较清楚了。模型源码在https://github.com/google-research/bert，截至本文发布，该项目的Readme.md文件中提供了如下图所示的9个模型的下载链接。前两个是区分大小写的英文模型，第三个是中文模型，4589没有用过具体不太清楚，六七是不区分大小写的英文模型（根据Readme.md中的描述，如果对大小写不是很敏感的话用...

一种RuntimeError Key bert/embeddings/position_embeddings not found in checkpoint的解决思路

vegetable_me的博客

03-16

3037

一种RuntimeError: Key bert/embeddings/position_embeddings not found in checkpoint的解决思路注意：这个方法绝对有问题，但是能解决燃眉之急最近因为各种各样的原因，完全0基础的小白不得不跑一下苏老师的simBERTv2模型，下载下来，并且采用了bert4keras官网给的代码示例后，这就开跑，结果报了错误： RuntimeError: Key bert/embeddings/position_embeddings not found

使用tensorflow2.15.0版跑bert模型遇到的问题记录

最新发布

Blankit1的博客

11-30

943

函数)，遇到的一些问题记录。使用官方的bert模型。

Bert分类将检查点ckpt模型转成saved model的pb模型

qq_38163931的博客

06-22

1391

使用官方提供的Bert中文模型做分类之后，由于某些方面的需求，需要将训练的checkpoints模型转换成pb模型，但是由于对Bert模型不是很了解，一些方法没法使用，最后找到一些工具，成功转换。这里记录一下。如果有和我情况完全一致的人，可以使用和我一样的方法来转换。下面记录下我的出错流水账。我的情况： 1.使用的是Bert模型的分类模型（见2.2第一个参考博文，里面说别的模型可能会出错） 2.没有仔细看代码，不清楚Bert模型的输入输出变量都是什么（知道的就能用2.1的通用方法了）。这里顺便记

Bert (Bi-directional Encoder Representations from Transformers) Pytorch 源码解读（一）

ZJRN1027的博客

12-27

2291

前言 Bert (Bi-directional Encoder Representations from Transfromers) 预训练语言模型可谓是2018年 NLP 领域最耀眼的模型，看过很多对 Bert 论文和原理解读的文章，但是对 Bert 源码进行解读的文章较少，这篇博客有一份 TensorFlow 版本的 Bert 源码解读，这里来对 Pytorch 版本的 Bert 源码记录...

BERT（预训练Transformer模型）

teletubbies的博客

10-15

4565

Bert在18年提出，19年发表，Bert的目的是为了预训练Transformer模型encoder网络，从而大幅提高准确率Bert 的基本想法有两个，第一个想法：随机遮挡一个或者多个单词，让encoder网络根据上下文来预测被遮挡的单词。第二个想法：把两个句子放在一起让encoder网络判断两句话是不是原文里相邻的两句话Bert用这两个任务来预训练Transformer模型中的encoder网络。

已解决：KeyError: ‘Transformer/encoderblock_0\\MultiHeadDotProductAttention_1/query\\kernel is not a

weixin_44091136的博客

05-16

1734

pjoin（）函数在Windows下，路径分隔符是反斜杠\，而在Unix和Linux下，路径分隔符是正斜杠/pjoin(ROOT, ATTENTION_Q, “kernel”)将多个路径组合为一个路径出错。pjoin(ROOT, ATTENTION_Q, “kernel”)在windows下输出为。在moding.py 文件中：将下面几行代码。

BERT代码解读

herosunly的博客

06-16

1万+

1. 公共函数 2. tokenization 2.1 basic tokenizer 2.2 wordpiece tokenizer 2.3 fulltokenizer 3. create_pretraining_data 3.1 配置基本参数 3.2 main 3.3 instances的构建 3.4 保存instances 3.5 执行pre_train 4. word embedding 5.词向量后续处理 6. attention mask 7. attention layer..........

关于Transformer你需要知道的都在这里------从论文到代码深入理解BERT类模型基石（包含极致详尽的代码解析！）

g534441921的博客

02-22

3614

深入理解Transformer------从论文到代码Attention Is All You Need摘要介绍背景模型结构编码器解码器注意力 Attention Is All You Need 摘要提出了完全基于注意力机制，避免使用循环和卷积的新的网络结构。介绍 RNN模型通常沿输入和输出序列的符号位置进行因子计算，将位置与计算时间中的步骤对齐。它们产生一系列的隐藏状态hth_{t}ht，...

BERT基础（一）：self_attention自注意力详解

杨丹的博客

11-05

1万+

BERT中的主要模型为Transformer，而Transformer的主要模块就是self-attention。为了更好理解bert，就从最基本的self-attention 开始。之后的博文则一步一步推进到bert。参考：李宏毅2019年新增课程 week 15 transformer 课程笔记视频及课件地址：https://www.bilibili.com/video/av65521...

BERT源码分析PART III

Kaiyuan_sjtu的博客

05-18

1万+

写在前面继续之前没有介绍完的Pre-training部分，在上一篇中我们已经完成了对输入数据的处理，接下来看看BERT是怎么完成Masked LM和Next Sentence Prediction两个任务的训练的。 run_pretraining 任务#1：Masked LM get_masked_lm_output函数用于计算任务#1的训练loss。输入为BertModel的最后一层se...

tensorflow在载入模型的时候会出现Key Variable_4 not found in checkpoint的解决思路