将bert中的字向量提取出来并保存成npy文件

最新推荐文章于 2022-09-21 15:54:18 发布

anshiquanshu

最新推荐文章于 2022-09-21 15:54:18 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习自然语言处理

原文链接：https://blog.csdn.net/qq_40210472/article/details/100890120

版权

深度学习同时被 2 个专栏收录

130 篇文章 7 订阅

订阅专栏

自然语言处理

79 篇文章 10 订阅

订阅专栏

因为我们是要使用bert的词向量，希望可以简单如word2vec 一般，拿来就用，所以将 bert_model.ckpt中的保存的word_embedding提取出来，并进行保存。

也是一个tensorflow 保存提取模型的方法

首先下载 bert中文预训练模型 chinese_L-12_H-768_A-12 这是一个768维的中文词向量预训练模型

在这个文件夹下使用下列代码

import tensorflow as tf
from tensorflow.python import pywrap_tensorflow
import numpy as np
 
 
 
 
 
ckpt_path = 'bert_model.ckpt'
 
reader = pywrap_tensorflow.NewCheckpointReader(ckpt_path)
param_dict = reader.get_variable_to_shape_map()  # 读取 ckpt中的参数的维度的
#emd = param_dict['bert/embeddings/word_embeddings']
emd = reader.get_tensor('bert/embeddings/word_embeddings') # 得到ckpt中指定的tensor 
print(len(emd))
print(emd[:5])
param=np.array(emd)
np.save('bert_embed.txt',param)
'''
from tensorflow.python.tools import inspect_checkpoint as chkp
chkp.print_tensors_in_checkpoint_file(file_name="./bert_model.ckpt", 
                                      tensor_name = 'bert/embeddings/word_embeddings', 
                                      all_tensors = True, 
                                      all_tensor_names=True) #

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

anshiquanshu CSDN认证博客专家 CSDN认证企业博客

码龄13年

52: 原创

4万+: 周排名

2万+: 总排名

95万+: 访问

: 等级

4975: 积分

712: 粉丝

864: 获赞

235: 评论

3423: 收藏

私信

关注

热门文章

分类专栏

python 71篇
自然语言处理 79篇
linux 10篇
机器学习 39篇
统计基础 2篇
matlab 13篇
学术研究 26篇
R语言 9篇
深度学习 130篇
医学 5篇
C++ 3篇
算法刷题 3篇

最新评论

conda找不到安装的环境 Could not find conda environment（添加已经存在的python环境）
新一代图书管理员の养成笔记: 太太太感谢了，思考问题就应该像你这样想。为什么conda找不到环境？我们应该去想想conda去哪个名单上找环境，conda找环境的名单在哪？这应该是配置方面的内容所以conda config --help查看相关命令，然后就能找到envs_dirs这个东西。又考虑到下面的内容都是xxx/env，就是没有anaconda3/env，所以考虑把它添加进去。跟着这样的习惯和思路，就能自动理清问题和解决问题的办法： 1.如果确定是conda找的列表的问题，就使用conda config --apend加入路径
Elsevier（爱思唯尔）LaTex 模板详细说明
saczx: 请问你解决了吗，这个题目后的星号需要去掉吗
深度学习PyTorch，TensorFlow中GPU利用率较低，CPU利用率很低，且模型训练速度很慢的问题总结与分析
阿弥陀佛善哉: 我遇到了，开num_workers=4，但cpu只用一个核去读数据。用num_workers=0主进程读取数据，反而用了2-4核之间。太离谱了。
执行git clone拉取代码出现错误RPC failed,curl 56 OpenSSL SSL_read: SSL_ERROR_SYSCALL, errno 10054解决方法
神通广大白居易: 感谢作者，完美解决，但是又出现了以下错误，请问该如何解决啊？error: invalid path 'log/communication/.ipynb_checkpoints/fl_attack_learningRate_0.005_ActiveRate_0.04_MergeMethod_0_AttackMethod_0_AttackNode_0.00_AttackRange_0.00_AggregationRate_0.4_epoch_1000_2022-05-04-13:18:44-checkpoint.txt' fatal: unable to checkout working tree warning: Clone succeeded, but checkout failed. You can inspect what was checked out with 'git status' and retry with 'git restore --source=HEAD :/'
Elsevier（爱思唯尔）LaTex 模板详细说明
ω搞学习ω: 您好，我想请问一下怎么样能把摘要，关键词连同上下的横线一起删除呢？我用的MIA的模板，网上搜了几个方法都没有效果。

大家在看

家庭网络中，路由器和交换机的连接顺序

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。