自注意力机制与Transformer


前言

本篇文章记录了学习台大李宏毅老师讲解的自注意力机制与Transformer,并详细记录了自己的理解。


提示:以下是本篇文章正文内容,下面案例可供参考

一、词嵌入(Word Embedding)

一般计算机读取word的方法有以下三种,1-of-N Encoding,Word Class和Word Embedding.
其中One-hot Encoding方法就是将世界上每一个单词通过一个向量进行表示,该向量的长度就是世界上所有单词的数量。如下图z左所示:
在这里插入图片描述
word Closs: 建立word class,把相同性质的word放在同一个class内,将词汇进行分类,这个方法也比较粗糙,比如动物也分成了很多种,不能完全的概括。
Word Embedding: 把每一个词汇也用向量来描述,但是每一个维度是一个属性。word embedding, 就是找到一个映射或者函数,生成在一个新的空间上的表达。通俗翻译可以认为是单词嵌入, 就是将X所属空间的单词映射到Y空间的多维向量,那么该多为向量相当于嵌入到Y所属空间中。该方法与one-hot编码和word class相比,词嵌入可以将更多的信息塞入到更低的维度中。

词嵌入举例:
训练得到的矩阵E,通过将One-Hot编码表示的词与嵌入矩阵相乘,就可以将高维稀疏的矩阵嵌入到一个低维稠密的矩阵中,过程如下所示:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述


总结

以上是自己的学习总结,如有任何疑问,欢迎各位学者评论留言讨论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值