Multi_Label_Classifier_finetune
微调预训练语言模型,解决多标签分类任务。可加载BERT、Roberta、Bert-wwm以及albert等开源tf格式的模型
该项目的目录为:
数据集描述
模型训练
预测
导出模型用于Tensorflow Serving
数据集描述
本文所使用的的多标签数据集来自于kaggle比赛(toxic-comment-classification)
具体示例如下:
标签描述:
上面有2句示例,第一行分别对应(id,text,labels),其中labels通过类似于one-hot的方式进行了转换,这里就变成了'1,1,1,0,1,0',比对标签文件中标签的顺序,表示该文本对应的标签为'toxic,severe_toxic,obscene,insult'
模型训练
运行命令:
bash train.sh
训练命令的参数说明:
BERT_BASE_DIR:预训练语言模型所在路径
DATA_DIR:训练集所在路径
<