分享来自 用于多标签Tweets分类的微调Bert模型
为了解决数据不平衡问题,本文 采用自适应的方式为类赋
这里不涉及到多的代码 这里我会带着大家 我们一起 解读论文里的东西,会有些不全 有些细节不到位欢迎在评论区指出
说到底直接开始进入正题:
相关工作:
这里我全部总结一下:
这里使用的bert预训练 叠加层是加了10个 后面 linear 接了一个sigmoid
文章说的焦点loss和二元交叉熵,实际上指是两个loss,焦点loss存在有约束项α可以抑制住好的样本 多去关注难样本 再去忽视容易的样本点
举个例子:之前很火的一个框架 用于对话系统的轻量语言理解方法 DIET使用意图识别和实体提取联合任务的,网络结构运用了两层的transformer+一层CRF,其中CRF的作用主要是做实体提取的,跟在命名实体识别里面的作用是一样的,这里也用到了mask遮蔽和CLS,能将借助第三方预训练语言模型得到的字级别的向量(稠密)和字符token级别的(one-hot编码和n-gram≤5)稀疏特征,加起来后传到前馈神经网络,然后再输入到两层Transformer里得到个序列,再经过CRF后输出,就可以进行实体提取
这里的重点是它的损失 损失有 三个损失 mask 损失 ,意图损失,实体损失,
上面同理 为了解决样本不均衡的问题 作者使用了两个损失 但是实现起来特别困难
这里说的两个损失 一个是二元交叉熵 和 focalloss (焦点损失)想了解的可以看这个博主的文章我觉得比较好focalloss,diceloss 知识点总结_啥也不会就会混的博客-CSDN博客 大家可以自行学习呀
这里将bert微调成推文的多标签分类,注意这里指多标签,文章中,添加了额外的sigmoid激活函数到了隐藏层,加sigmoid的作用是什么,这里有谁知道的可以值得思考一下,我先卖个关子 一开始我容易弄混淆