读论文(二) - BERT

本文介绍了BERT在预训练语言模型中的应用,探讨了基于特征和微调两种策略。重点讨论了BERT的双向预训练优势,以及在多个NLP任务中的实验结果,证明了NSP任务对性能的重要性,并分析了模型大小对准确性的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Introduction

        预训练的语言模型,在改进自然语言处理任务方面非常有效。包括句子级别的任务(自然语言推理和释义)也包括分词级别的任务(NER和问答)。

        将预训练的语言表示应用于下游任务有两种现有策略:基于特征(feature-based)与微调(fine-tuning)。(这两种方法在预训练期间共享相同的目标函数,它们使用单​​向语言模型来学习通用语言表示。)

        基于特征:例如 ELMo使用特定于任务的架构,其中包括预训练的表示作为附加特征。

        微调:引入了最少的任务特定参数,并通过简单地微调所有预训练参数来对下游任务进行训练。

       但是,当前的技术限制了预训练表示的能力,特别是对于微调方法。主要限制是标准语言模型是单向的,这限制了可在预训练期间使用的架构的选择。这样的限制对于句子级任务来说是次优的,并且在将基于微调的方法应用于令牌级任务(例如问答)时可能非常有害。(提出问题

BERT  

       所有总结的bert的知识点都在这:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值