小白一枚,纯属记录自己的踩雷事件,如有错误,希望可以指出。原创,如有转载,请注明出处。谢谢!
bert-as-service的详细介绍请参考链接:https://github.com/hanxiao/bert-as-service。readme的第三部分有详细介绍。
安装完BERT环境后,就用pip安装了bert-serving-server和bert-serving-client,bert-as-service大致工作原理就是运行一个服务端,然后客户端通过相应的端口去和服务端交互,从而用向量对句子进行表示。
本文介绍的是在win10 pycharm上直接运行服务端和客户端生成句子向量的方法。详情请看代码:
下面是服务端的代码:(直接新建一个service.py,把代码复制进去就可以启动服务)
# -*- coding: utf-8 -*-
from bert_serving.server import BertServer
from bert_serving.server.helper import get_args_parser
def main():
args = get_args_parser().parse_args(['-model_dir', r'C:\project\bert-as-service\chinese_L-12_H-768_A-12',
'-port', '86500',
'-port_out', '86501',
'-max_seq_len', '512',
'-mask_cls_sep',
'-cpu'])
bs = BertServer(args)
bs.start()
if __name__ == "__main__":
main()
下面是客户端的代码:
from bert_serving.client import BertClient
bc = BertClient(port=86500, port_out=86501, show_server_config=True, timeout=1000000)
vec = bc.encode(['今天天气很好', 'then do it right', 'then do it better'])
print(vec)
直接运行就可以的到句子向量了。
timeout是为了避免客户端无限制的等待服务端而做的一个超时限定,timeout的大小视网络延迟情况而定,当然也可以不加。值得注意的是,服务端和客户端无论谁先启动(若客户端先启动,不应该添加timeout参数),效果是相同的。