bert下游_GitHub - cedar33/bert_offline: 小内存、显存(低于4g)使用bert做下游任务的一个方案...

本文介绍了一种在小内存和低显存(如4GB)环境下使用BERT进行下游任务的方法,主要应用于文本分类。通过保存BERT的输出作为词向量,在不训练词向量的情况下,降低了显存占用并加快了推理速度。在4GB显存的设备上,双向LSTM文本分类任务能达到300 examples/s的速度,验证集准确率约93%。提供了一个基于TensorFlow 2.0的文本分类代码示例和相关数据集。
摘要由CSDN通过智能技术生成

BERT offline

使用BERT的输出作为词向量,下游任务中不再对词向量进行训练,效果优于一般词向量模型,又显著的减少了显存占用和推理时间,基于此词向量的双向lstm的文本二分类任务在4g显存的笔记本上能以300 examples/s 的速度推,验证集准确率93%左右。

bert.npz: BERT的输出,做为下游任务的embedding层

vocab.txt: BERT词表

text_classify.py: 文本分类任务样例,基于tensorflow2.0,运行脚本:

python text_classify.py --data_dir=./ --output_dir=./model/ --vocab_file=./vocab.txt --train_batch_size=32 --num_train_epochs=10 --max_seq_length=256python text_classify.py --data_dir=./ --output_dir=./model/ --vocab_file=./vocab.txt --train_batch_size=32 --num_train_epochs=10 --max_seq_length=256

train.tsv, dev_matched.tsv: 训练、测试数据,格式:

我从山中来,带着兰花草 negative

以\t为分隔符

ps: 词表查找通过list的index方法查找的,效率比较低,对速度要求比较高的可以修改成字典方式,或者修改bert自带的tokenizer来实现词表高速查找

bert_embeddings.npz下载 提取码࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值