用于多标签Tweets 分类的微调bert模型转载于论文(适用于小白讨论,大佬可以过来凑个热闹)

分享来自  用于多标签Tweets分类的微调Bert模型

为了解决数据不平衡问题,本文 采用自适应的方式为类赋

这里不涉及到多的代码  这里我会带着大家 我们一起 解读论文里的东西,会有些不全 有些细节不到位欢迎在评论区指出 

说到底直接开始进入正题:

相关工作:              

这里我全部总结一下:

这里使用的bert预训练 叠加层是加了10个 后面 linear 接了一个sigmoid

文章说的焦点loss和二元交叉熵,实际上指是两个loss,焦点loss存在有约束项α可以抑制住好的样本 多去关注难样本 再去忽视容易的样本点

举个例子:之前很火的一个框架 用于对话系统的轻量语言理解方法 DIET使用意图识别实体提取联合任务的,网络结构运用了两层的transformer+一层CRF,其中CRF的作用主要是做实体提取的,跟在命名实体识别里面的作用是一样的,这里也用到了mask遮蔽CLS,能借助第三方预训练语言模型得到的字级别的向量(稠密)字符token别的(one-hot编码和n-gram≤5)稀疏特征起来后传到前馈神经网络,然后再输入到两层Transformer里得到个序列,再经过CRF后输出,就可以进行实体提取

这里的重点是它的损失 损失有 三个损失 mask 损失 ,意图损失,实体损失,

上面同理 为了解决样本不均衡的问题 作者使用了两个损失 但是实现起来特别困难

这里说的两个损失 一个是二元交叉熵 和 focalloss (焦点损失)想了解的可以看这个博主的文章我觉得比较好focalloss,diceloss 知识点总结_啥也不会就会混的博客-CSDN博客 大家可以自行学习呀

 
这里将bert微调成推文的多标签分类,注意这里指多标签,文章中,添加了额外的sigmoid激活函数到了隐藏层,加sigmoid的作用是什么,这里有谁知道的可以值得思考一下,我先卖个关子  一开始我容易弄混淆

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值