自回归模型 java_【NLP面试QA】预训练模型

最新推荐文章于 2024-02-19 01:13:35 发布

傅一一

最新推荐文章于 2024-02-19 01:13:35 发布

阅读量479

点赞数

文章标签：自回归模型 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42317626/article/details/114767640

版权

本文详细介绍了自回归和自编码语言模型，包括各自的优缺点、代表模型如ELMo、GPT和BERT。特别讨论了BERT的预训练任务、embedding结构以及与其他模型如Roberta、ERNIE和XLNet的区别。同时，提到了参数缩减技术在ALBERT模型中的应用。

摘要由CSDN通过智能技术生成

[TOC]

自回归语言模型与自编码语言

自回归语言模型

通过给定文本的上文，对下一个字进行预测

优点：对文本序列联合概率的密度估计进行建模，使得该模型更适用于一些生成类的NLP任务，因为这些任务在生成内容的时候就是从左到右的，这和自回归的模式天然匹配。

缺点：联合概率是按照文本序列从左至右进行计算的，因此无法提取下文信息；

代表模型：ELMo/GPT1.0/GPT2.0/XLNet(XLNet 做了些改进使得能够提取到下文特征)

自编码语言模型

其通过随机 mask 掉一些单词，在训练过程中根据上下文对这些单词进行预测，使预测概率最大化。其本质为去噪自编码模型，加入的 [MASK] 即为噪声，模型对 [MASK] 进行预测即为去噪。

优点：能够利用上下文信息得到双向特征表示

缺点：其引入了独立性假设，即每个 [MASK] 之间是相互独立的。这实际上是语言模型的有偏估计，另外，由于预训练中 [MASK] 的存在，使得模型预训练阶段的数据与微调阶段的不匹配，使其难以直接用于生成任务。

代表模型：Bert/Roberta/ERNIE

Bert

Bert 中的预训练任务

Masked Language Model

在预训练任务中，15%的 Word Piece 会被 mask，这15%的 Word Piece 中，80%的时候会直接替换为 [Mask] ，10%的时候将其替换为其它任意单词，10%的时候会保留原始Token

没有 100% mask 的原因

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。