Raki的读paper小记:How to Fine-Tune BERT for Text Classification?

82 篇文章 10 订阅

咕咕咕我疯狂的咕咕咕,最近狠狠摆烂了几天,决定写一下blog!

摘要与总结

在本篇paper中,作者做了详尽的实验来研究文本分类中不同Bert的微调方法,并提供了一个通用的解决方案

最终通过实验发现:

  • Bert的最顶层对于文本分类更加有效
  • 在适用层级别的学习率衰减的情况下,Bert可以很好的克服遗忘的问题
  • Within-task和in-domain的预训练可以显著提高表现
  • 一个事先的多任务fine-tuning同样对单任务有效,但是效果弱于预训练
  • Bert能改进小数据量的任务

方法

Fine-Tuning Strategies

  • 文本长度大于512怎么办?
    在这里插入图片描述
    head+tail方法是最优的
    在这里插入图片描述

  • 选择分类效果最优的层

最后一层…(这不是肯定的吗)
在这里插入图片描述

  • 遗忘的问题,选择合适的学习率和衰减率

2e-5 + 0.95达到了最优
在这里插入图片描述
在这里插入图片描述

Further Pre-training

  • 任务内预训练(在目标任务的训练集上预训练)
  • 领域内预训练(在同领域的目标任务的数据集上预训练)
  • 交叉领域预训练

In-Domain and Cross-Domain Further Pre-Training
在这里插入图片描述

Multi-task Fine-Tuning

Bert共享前面的11层,最后一层用于分类,是各任务私有的
在这里插入图片描述

在这里插入图片描述

Few-Shot Learning

在这里插入图片描述

Further Pre-Training on BERT Large

在这里插入图片描述

评价

首先这篇paper的实验确实做的很足很足(废话)

提供了bert调参的方法,学到了长文本的截断最优方法,最后一层的分类效果最好(不然呢?)

其他的不知道说什么了,我感觉看起来都挺理所当然的(:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值