ChatGLM模型解析：构建智能对话的新框架

daimakezhan_cn_b

于 2024-06-10 09:49:29 发布

阅读量60

点赞数

文章标签： java

原文链接：https://code.stackbox.cn

版权

ChatGLM的部署微调等，很多资料，不再赘述。

P-tuning V2

以P-Turing V2为例，介绍ChatGLM的网络结构。P-tuning V2方法训练时冻结模型的全部参数，只激活prefix_encoder的参数。

1、prefix encoder

初始化pre_len，代表prompt的最大长度

1）模型的输入为[0, 1, 2, …, pre_len-1]，复制，维度为[B, pre_L]

经prefix_encoder层，输出维度
[B, pre_L, 2*layer_num*E]
。layer_num和下面GLMBlock的数量一致。prefix_encoder是embedding层和MLP的组合。
变换维度，令
P
=维度为[B, pre_L, 2*E]的张量

2、主模型

1）模型输入：[B, L]

2）经embedding层，输出embed:= [B, L, E]，E为embedding的维度

3）经过多层GLMBlock层，输出维度[B, L, E]

GLMBlock是一个类Transformer的层，做改变的地方在Attention层。

在第i层，embed经若干变换，可以得到Q、K、V三个张量，维度如下

(

Q

,

V

)

K

:

[

B

,

L

,

h

e

a

d

,

E

/

h

e

a

d

]

(Q,V)K: [B, L, head, E/head]

(

Q

,

V

)

K

:

[

B

,

L

,

h

e

a

d

,

E

/

h

e

a

d

]

对每个K和V，添加prefix_encoder层的张量P

(

V

)

K

=

K

P

:

[

B

,

L

p

r

e

_

L

,

h

e

a

d

,

E

/

h

e

a

d

]

(V)K=K+P:[B, L+pre\_L, head, E/head]

(

V

)

K

=

K

P

:

[

B

,

L

p

re

_

L

,

h

e

a

d

,

E

/

h

e

a

d

]

后面就是softmax函数那一套，输出张量hidden维度[B, L, E]

令embed=hidden，开启下一轮

4）最后一层的hidden，经layer_norm层，输出 [B, L, E]，后面做损失。

daimakezhan_cn_b

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ChatGLM模型解析：构建智能对话的新框架

ChatGLM的部署微调等，很多资料，不再赘述。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。