自回归模型 java_【NLP面试QA】预训练模型

本文详细介绍了自回归和自编码语言模型,包括各自的优缺点、代表模型如ELMo、GPT和BERT。特别讨论了BERT的预训练任务、embedding结构以及与其他模型如Roberta、ERNIE和XLNet的区别。同时,提到了参数缩减技术在ALBERT模型中的应用。
摘要由CSDN通过智能技术生成

[TOC]

自回归语言模型与自编码语言

自回归语言模型

通过给定文本的上文,对下一个字进行预测

优点:对文本序列联合概率的密度估计进行建模,使得该模型更适用于一些生成类的NLP任务,因为这些任务在生成内容的时候就是从左到右的,这和自回归的模式天然匹配。

缺点:联合概率是按照文本序列从左至右进行计算的,因此无法提取下文信息;

代表模型:ELMo/GPT1.0/GPT2.0/XLNet(XLNet 做了些改进使得能够提取到下文特征)

自编码语言模型

其通过随机 mask 掉一些单词,在训练过程中根据上下文对这些单词进行预测,使预测概率最大化。其本质为去噪自编码模型,加入的 [MASK] 即为噪声,模型对 [MASK] 进行预测即为去噪。

优点:能够利用上下文信息得到双向特征表示

缺点:其引入了独立性假设,即每个 [MASK] 之间是相互独立的。这实际上是语言模型的有偏估计,另外,由于预训练中 [MASK] 的存在,使得模型预训练阶段的数据与微调阶段的不匹配,使其难以直接用于生成任务。

代表模型:Bert/Roberta/ERNIE

Bert

Bert 中的预训练任务

Masked Language Model

在预训练任务中,15%的 Word Piece 会被 mask,这15%的 Word Piece 中,80%的时候会直接替换为 [Mask] ,10%的时候将其替换为其它任意单词,10%的时候会保留原始Token

没有 100% mask 的原因

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值