LLM面面观之Prefix LM vs Causal LM

mengrennwpu

已于 2023-12-14 15:32:57 修改

阅读量536

点赞数 1

分类专栏： LLM 文章标签：自然语言处理语言模型人工智能

于 2023-11-29 14:29:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MENGERN/article/details/134689074

版权

LLM 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1. 背景

关于Prefix LM和Causal LM的区别，本qiang在网上逛了一翻，发现多数客官只给出了结论，但对于懵懵的本qiang，结果仍是懵懵...

因此，消遣了多半天，从原理及出处，交出了Prefix LM和Causal LM两者区别的更为清楚的说明。

2. Prefix LM

Prefix LM，即前缀语言模型，该结构是Google的T5模型论文起的名字，望文知义来说，这个模型的”前缀”有些内容，但继续向前追溯的话，微软的UniLM已经提及到了。

Prefix LM其实是Encoder-Decoder模型的变体，为什么这样说？解释如下：

(1) 在标准的Encoder-Decoder模型中，Encoder和Decoder各自使用一个独立的Transformer

( 2) 而在Prefix LM，Encoder和Decoder则共享了同一个Transformer结构，在Transformer内部通过Attention Mask机制来实现。

继续展开下Attention Mask机制，马上主题就有解了！

与标准Encoder-Decoder类似，Prefix LM在Encoder部分采用Auto Encoding (AE-自编码)模式，即前缀序列中任意两个token都相互可见，而Decoder部分采用Auto Regressive (AR-自回归)模式，即待生成的token可以看到Encoder侧所有token(包括上下文)和Decoder侧已经生成的token，但不能看未来尚未产生的token。

下面的图很形象地解释了Prefix LM的Attention Mask机制(左)及流转过程(右)。

Prefix LM的代表模型有UniLM、T5、GLM(清华滴~)

3. Causal LM

了解了Prefix LM后，再来看Causal LM就简单的多了~

Causal LM是因果语言模型，目前流行地大多数模型都是这种结构，别无他因，因为GPT系列模型内部结构就是它，还有开源界的LLaMa也是。

Causal LM只涉及到Encoder-Decoder中的Decoder部分，采用Auto Regressive模式，直白地说，就是根据历史的token来预测下一个token，也是在Attention Mask这里做的手脚。

参照着Prefix LM，可以看下Causal LM的Attention Mask机制(左)及流转过程(右)。

Ps(图真是个好东西，一图胜万字呀)

4. 如何选取

两种结构均能生成文本，应该如何选择呢？只能说仁智见仁智。本qiang也搜寻了一番，有一篇google的论文，从理论上推导了Causal LM在情境学习(In-Context Learning)中比不上Prefix LM，感兴趣地客官可以看看论文。

5. 总结

一句话足矣~

前缀语言模型可以根据给定的前缀生成后续的文本，而因果语言模型只能根据之前的文本生成后续的文本。

6. 参考

(1) google T5: https://arxiv.org/pdf/1910.10683v4.pdf

(2) 微软UniLM: https://arxiv.org/pdf/1905.03197.pdf

(3) google理论评估PLM与CLM: https://arxiv.org/pdf/2308.06912.pdf

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
LLM面面观之Prefix LM vs Causal LM

前缀语言模型可以根据给定的前缀生成后续的文本，而因果语言模型只能根据之前的文本生成后续的文本。
复制链接

扫一扫

专栏目录

博客等级

码龄13年

62
原创

102
点赞

104
收藏

79
粉丝

关注

私信

热门文章

分类专栏

LLM 7篇
C语言 4篇
Java 11篇
MySQL 15篇
Linux 25篇
存储过程 1篇
TCP/IP 2篇
多线程
数据结构 9篇
Eclipse 2篇

最新评论

LLM应用实战：当KBQA集成LLM(二)
2401_84170414: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
LLM面面观之RLHF平替算法DPO
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

mengrennwpu 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。