Universal Language Model Fine-tuning for Text Classification

纯手打,相互学习,如有问题还望指正。
部分英文术语属于最新提出,会直接贴出英文,抱歉。
深度学习,文本分析等问题可以加QQ交流,相互学习。QQ:1307629084
论文归类:迁移学习
简要说明:一个不错的自然语言迁移学习模型。

原文链接:https://arxiv.org/pdf/1801.06146.pdf

论文作者:Jeremy Howard, Sebastian Ruder
论文刊号:ACL 2018.
发表时间:2018.5.23

论文题目:用于文本分类的通用语言模型微调

摘要
归纳转移学习极大地影响了计算机视觉,但NLP中的现有方法仍需要从头开始进行任务特定的修改和培训。 我们提出了通用语言模型微调(ULMFiT),这是一种有效的转移学习方法,可应用于NLP中的任何任务,并介绍了微调语言模型的关键技术。 我们的方法明显优于六个文本分类任务的最新技术,将大多数数据集的误差降低了18-24%。 此外,仅有100个标记示例,它可以在100多个数据上从头开始匹配训练的性能。 我们开源我们的预训练模型和code1。
归纳迁移学习已经极大地影响了计算机领域,但是现有的NLP方法仍然需要从头开始进行任务特定的修改和训练。我们提出了通用语言模型微调(ULMFiT)方法,一种适用于NLP中的任何任务的有效迁移学习方法,并介绍了微调语言模型的关键技术。我们的方法在六个文本分类任务上明显优于现有技术,在大多数数据集上减少了18-24%的误差。此外,在仅有100个标注实例的情况下,该算法在100×更多数据上匹配了从零开始的训练性能。我们开源我们的预训练模型和code1。

  1. 简介
    归纳迁移学习对计算机视觉(CV)产生了很大的影响。应用CV模型(包括对象检测、分类和分割)很少从头开始训练,而是从在ImageNet、MS-COCO和其他数据集上预先训练的模型中进行微调(Sharif Razavian等人,2014;Long等人,2015a;He等人,2016;Huang等人,2017)。
    文本分类是自然语言处理(NLP)任务的一个类别,具有诸如垃圾邮件、欺诈和僵尸检测之类的现实应用(Jindal和.,2007;Ngai等人,2011;Chu等人,2012)、紧急响应(Caragea等人,2011)和商业文档分类,例如foR规则发现(RoiBLAT等人,2010)。
    虽然深度学习模型在许多NLP任务中都达到了最新水平,但是这些模型是从头开始训练的,需要大量的数据集,并且需要几天的时间来收敛。NLP的研究主要集中在转导传递(BLIZER等,2007)。对于归纳传输,微调预训练词向量(Mikolov等人,2013)是一种仅针对模型第一层的简单传输技术,在实践中具有重大影响,并且用于大多数最先进的模型。将源自其他任务的嵌入与不同层的输入连接起来的最近方法(Peters等人,2017;McCann等人,2017;Peters等人,2018)仍然从头开始训练主要任务模型,并将预处理嵌入视为固定参数,限制了它们的实用性。
    考虑到数据预处理的好处(Erhan等人,2010),我们应该能够比随机初始化模型的其余参数做得更好。然而,通过FunTununon感应转移已经不成功的NLP(PO等人,2016)。Dai和Le(2015)首先提出了对语言模型(LM)进行细化,但是需要数百万个域内文档才能实现良好的性能,这严重限制了它的适用性。
    我们展示了LM微调的想法,但我们缺乏如何有效地培训它们的知识,这阻碍了更广泛的采用。LM非常适合于小型数据集,并且在使用分类器进行微调时遭受了灾难性的遗忘。与CV相比,NLP模型通常更浅,因此需要不同的微调方法。
    我们提出了一种新的方法,通用语言模型微调(ULMFiT),它解决了这些问题,并为任何NLP任务提供了健壮的感应转移学习,类似于微调ImageNet模型:相同的3层LSTM架构,具有相同的超参数并且除了tuned dropout之外没有其他的添加在六个被广泛研究的文本分类任务中,超参数优于高度工程化的模型和转移学习方法。在IMDb上,使用100个标记的例子,ULMFiT将从10×开始的训练性能与10×给定50k的未标记例子和100×更多的数据匹配。
    贡献
    本文的主要贡献如下:1)提出了通用语言模型微调(ULMFiT)方法,该方法可用于实现任意NLP任务的类CV迁移学习。2)我们提出了区分性微调、倾斜三角形学习率和渐进解冻的新技术,以保持先前的知识,避免微调过程中的灾难性遗忘。3)在六个具有代表性的文本分类数据集上,我们显著优于现有技术,在大多数数据集上,错误减少了18-24%。4)我们证明了我们的方法能够进行非常有效的样本迁移学习并且执行广泛的消融分析。5)我们使预先训练的模型和我们的代码可用以更广泛地采用。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值