本次数据为脱敏文本,相当一种新语言了,直接用中文预训练的模型是不行的,故我们需要通过自己训练一个预训练模型。
做法就是将训练集,测试集放一起,构建专属词表,进行MLM无监督训练,训练属于脱敏文字的预训练模型,然后再在训练集上微调。
MLM就是通过将一些token MASK掉,让bert来学习预测。
多标签分类做法:标签制作为one-hot形式,例如[3,4,6]就转为[0,0,0,1,1,0,1,…0]
代码: github.
本次数据为脱敏文本,相当一种新语言了,直接用中文预训练的模型是不行的,故我们需要通过自己训练一个预训练模型。
做法就是将训练集,测试集放一起,构建专属词表,进行MLM无监督训练,训练属于脱敏文字的预训练模型,然后再在训练集上微调。
MLM就是通过将一些token MASK掉,让bert来学习预测。
多标签分类做法:标签制作为one-hot形式,例如[3,4,6]就转为[0,0,0,1,1,0,1,…0]
代码: github.