为什么position embedding就是相加一个随机矩阵

最新推荐文章于 2024-09-02 08:31:45 发布

FocusOneThread

最新推荐文章于 2024-09-02 08:31:45 发布

阅读量7.8k

点赞数 1

分类专栏：深度学习自然语言处理

本文链接：https://blog.csdn.net/guotong1988/article/details/87776055

版权

深度学习同时被 2 个专栏收录

212 篇文章 5 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

自然语言处理

166 篇文章 4 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

BERT模型中，位置嵌入（Position Embedding）用于将序列位置信息引入到模型中。它将序列的位置（如0,1,2,3,4等）转化为向量表示，类似于word embedding。实现方式有两种：一是one-hot编码，二是将位置视为word id，通过embedding_lookup得到与word embedding相同维度的向量，从而形成一个随机矩阵。这样，每个位置都有其独特的向量表示，有助于模型捕捉序列的顺序信息。" 119112200,11182567,深度学习与机器学习概览,"['深度学习', '机器学习', '神经网络', '卷积神经网络', '循环神经网络']

摘要由CSDN通过智能技术生成

position embedding BERT 里的实现：
position embedding code
要思考一个问题，什么是position embedding，
就是：
如果每个position的位置用0,1,2,3,4…来表示的话，
怎样像word embedding似的输进模型里呢，
就是两种办法：
one-hot
或者
把position的0,1,2,3,4看成word id一样用embedding_lookup表示成和word embedding同样维数，也就是用一个vector代表0，用一个vector代表1，用一个vector代表2……
position 0,1,2,3,4每个id或index都会转成一个vector，合起来也就是一个随机矩阵！