java调用bert_BERT使用记录/KenLM避坑

本文记录了如何使用BERT生成词向量,并提供了详细的脚本和解码代码。在Java环境下调用BERT,通过`extract_features.py`脚本处理数据,输出JSON格式的结果。同时,介绍了安装KenLM时的步骤,包括安装cmake和解决boost依赖问题。
摘要由CSDN通过智能技术生成

使用 bert 生成词向量:

##### 运行此脚本

export BERT_BASE_DIR = ./chinese_L-12_H-768_A-12 ## 模型地址

exprot Data_Dir = ./data

python bert-master/extract_features.py \

--input_file=$Data_Dir/train_ch.txt \

--output_file=$Data_dir/output.json \

--vocab_file=$BERT_BASE_DIR/vocab.txt \

--bert_config_file=$BERT_BASE_DIR/bert_config.json \

--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \

--layers=-1,-2,-3,-4 \

--max_seq_length=128 \

--batch_size=8

结果文件是这种形式:

{"linex_index": 0, "features":[{"token": "[CLS]", "layers": [{"index": -1, "values":[-0.919886, 0.656876, -0.58464654]}]}]}

解码代码:

import re

import json

src = ''

tgt = ''

def fun(file1,file2):

w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值