获得Bert预训练好的中文词向量

最新推荐文章于 2024-08-07 16:56:18 发布

小鹏酱

最新推荐文章于 2024-08-07 16:56:18 发布

阅读量1w

点赞数 9

分类专栏：词向量文章标签：词向量

本文链接：https://blog.csdn.net/scp_6453/article/details/90704296

版权

1 篇文章 0 订阅

订阅专栏

安装肖涵博士的bert-as-service：
pip install bert-serving-server
pip install bert-serving-client
下载训练好的Bert中文词向量：
https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
启动bert-as-service：
找到bert-serving-start.exe所在的文件夹（我直接用的anaconda prompt安装的，bert-serving-start.exe在F:\anaconda\Scripts目录下。）找到训练好的词向量模型并解压，路径如下：G:\python\bert_chinese\chinese_L-12_H-768_A-12
打开cmd窗口，进入到bert-serving-start.exe所在的文件目录下，然后输入：
bert-serving-start -model_dir G:\python\bert_chinese\chinese_L-12_H-768_A-12 -num_worker=1
即可启动bert-as-service（num_worker好像是BERT服务的进程数，例num_worker = 2，意味着它可以最高处理来自 2个客户端的并发请求。）
启动后结果如下：

此窗口不要关闭，然后在编译器中即可使用。
获取Bert预训练好的中文词向量：
from bert_serving.client import BertClient
bc = BertClient()
print(bc.encode([“NONE”,“没有”,“偷东西”]))#获取词的向量表示
print(bc.encode([“none没有偷东西”]))#获取分词前的句子的向量表示
print(bc.encode([“none 没有偷东西”]))#获取分词后的句子向量表示

结果如下：其中每一个向量均是768维。
在这里插入图片描述

可以看出分词并不会对句子的向量产生影响。
参考文章：
1.https://blog.csdn.net/zhonglongshen/article/details/88125958
2.https://www.colabug.com/5332506.html

关注

专栏目录