使用bert 快速进行 词嵌入word2vec教程

word2vec:

	就是将 一个词或者一个句子映射到一个高维空间,得到一组向量

最近遇到一个任务,需要对特定的语句key 去 提取相应的 value:
比如从 一个身份证 ocr 结果中, 输入 姓名 得到对应 人的名字
一想到这里, 为了能够从 姓名 这个词组 box 得到 人名 box 结果, 除了从相对位置入手,词语之间的关联性也是一个入手点。

google 已经将预训练模型放出来在官方的github上面了,利用预训练模型,进行词嵌入是一件简单的事情:

  1. 下载预训练模型: 链接:https://github.com/google-research/bert#pre-trained-models
    我是用的是 BERT-Base, Chinese
    解压
  2. 安装包:
pip install tensorflow-gpu==1.15
pip install -U bert-serving-server bert-serving-client
  1. 启动:
bert-serving-start -model_dir /path_to_the_model/ -num_worker=1
  1. 预测 词嵌入:
from bert-serving.client import BertClient()
client = BertClient()
vectors = client.encode(['dog', 'cat','man'])
  1. 计算相似度:
from service.client import BertClient
import numpy as np
bc = BertClient()
def cosine(a,b):
    return a.dot(b)/(np.linalg.norm(a)*np.linalg.norm(b))
vectors=np.array(bc.encode(['First do it', 'then do it right']))
print(['First do it', 'then do it right'],":",cosine(vectors[0],vectors[1]))

结果:
['First do it', 'then do it right'] : 0.92645866

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值