Word2vec
向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量。矢量分量表示文档中每个单词的权重或重要性。使用余弦相似性度量计算两个文档之间的相似性。
尽管对单词使用矢量表示的想法也已经存在了一段时间,但是对于嵌入单词的技术,将单词映射到向量的技术,最近一直在飙升。其中一个驱动因素是TomášMikolov的Word2vec算法,该算法使用大量文本来创建高维(50到300维)的单词表示,捕获单词之间的关系,无需外部注释。这种表述似乎捕获了许多语言规律。例如,它产生一个近似于vec(‘Rome’)表示的向量,作为向量运算vec(‘Paris’) - vec(‘France’)+ vec(‘Italy’)的结果。
Word2vec使用单个隐藏层,完全连接的神经网络如下所示。隐藏层中的神经元都是线性神经元。输入层设置为具有与用于训练的词汇中的单词一样多的神经元。隐藏图层大小设置为生成的单词向量的维度。输出图层的大小与输入图层相同。因此,假设用于学习单词向量的词汇表由V个单词组成并且N为单词向量的维度,则对隐藏层连接的输入可以由大小为VxN的矩阵WI表示,其中每行表示词汇单词。以相同的方式,可以通过矩阵WO来描述从隐藏层到输出层的连接大小为NxV。在这种情况下,WO矩阵的每列 表示来自给定词汇表的单词。使用“ 1-out of -V ”表示对网络的输入进行编码,这意味着只有一条输入线被设置为1,其余输入线被设置为零。
为了更好地处理Word2v