10.1 词嵌入(word2vec)
注:个人觉得本节和下一节写得过于简洁,对于初学者来说可能比较难懂。所以强烈推荐读一读博客Word2Vec-知其然知其所以然。
自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入(word embedding)。近年来,词嵌入已逐渐成为自然语言处理的基础知识。https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter10_natural-language-processing/10.1_word2vec
10.1.1 为何不采用one-hot向量
我们在6.4节(循环神经网络的从零开始实现)中使用one-hot向量表示词(字符为词)。回忆一下,假设词典中不同词的数量(词典大小)为