50预训练权重_浅谈NLP预训练模型

本文介绍了预训练模型在NLP领域的应用,重点探讨了以ELMo和BERT为代表的feature-based和fine-tuning方法。ELMo通过双向LSTM捕捉词汇的句法和语义信息,而BERT则利用Transformer的encoder结构实现双向信息提取,适用于多种NLP任务的微调。
摘要由CSDN通过智能技术生成

ace1e1e8963d4fe6af93722e75e80daa.png

简介

预训练模型最开始是在图像领域提出的,获得了良好的效果,近几年才被广泛应用到自然语言处理各项任务中。

预训练模型的应用通常分为两步:

第一步:在计算性能满足的情况下用某个较大的数据集训练出一个较好的模型

第二步:根据不同的任务,改造预训练模型,用新任务的数据集在预训练模型上进行微调。

预训练模型的好处是训练代价较小,配合下游任务可以实现更快的收敛速度,并且能够有效地提高模型性能,尤其是对一些训练数据比较稀缺的任务。换句话说,预训练方法可以认为是让模型基于一个更好的初始状态进行学习,从而能够达到更好的性能。

目前有两种预训练语言模型用于下游任务的方法:feature-based(以ELMo为例)和fine-tuning(以BERT为例)。

Feature-based

Feature-based一般指使用预训练语言模型训练出的词向量作为特征,输入到下游目标任务中。

「ELMo」

Model Architecture

bd5b50d754f153fcb90e4f5d0024e75b.png

上图展示的是ELMo模型结构,它的网络结构采用了双层双向LSTM。

Model Inputs

ELMo的输入为句子中每个单词的Word Embedding。论文原文中说的是:via token embeddings or a CNN over characters。换句话说,它可以是预训练好的embedding,也可以是采用字符卷积得到的embedding表示。

Model outputs

每个单词都能从模型的每层提取到与之对应的不同信息层次的 Embeddings:

  • 第一层双向 LSTM 对应的 Syntax
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值