前言
本篇文章记录了学习台大李宏毅老师讲解的自注意力机制与Transformer,并详细记录了自己的理解。
提示:以下是本篇文章正文内容,下面案例可供参考
一、词嵌入(Word Embedding)
一般计算机读取word的方法有以下三种,1-of-N Encoding,Word Class和Word Embedding.
其中One-hot Encoding方法就是将世界上每一个单词通过一个向量进行表示,该向量的长度就是世界上所有单词的数量。如下图z左所示:
word Closs: 建立word class,把相同性质的word放在同一个class内,将词汇进行分类,这个方法也比较粗糙,比如动物也分成了很多种,不能完全的概括。
Word Embedding: 把每一个词汇也用向量来描述,但是每一个维度是一个属性。word embedding, 就是找到一个映射或者函数,生成在一个新的空间上的表达。通俗翻译可以认为是单词嵌入, 就是将X所属空间的单词映射到Y空间的多维向量,那么该多为向量相当于嵌入到Y所属空间中。该方法与one-hot编码和word class相比,词嵌入可以将更多的信息塞入到更低的维度中。
词嵌入举例:
训练得到的矩阵E,通过将One-Hot编码表示的词与嵌入矩阵相乘,就可以将高维稀疏的矩阵嵌入到一个低维稠密的矩阵中,过程如下所示:
总结
以上是自己的学习总结,如有任何疑问,欢迎各位学者评论留言讨论。