向量空间模型 (VSMs) 将词汇表达(嵌套)于一个连续的向量空间中,语义近似的词汇被映射为相邻的数据点。向量空间模型在自然语言处理领域中有着漫长且丰富的历史,不过几乎所有利用这一模型的方法都依赖于分布式假设,其核心思想为出现于上下文情景中的词汇都有相类似的语义。采用这一假设的研究方法大致分为以下两类: 基于技术的方法 (如, 潜在语义分析),和 预测方法 (如, 神经概率化语言模型).
不过简而言之:基于计数的方法计算某词汇与其邻近词汇在一个大型语料库中共同出现的频率及其他统计量,然后将这些统计量映射到一个小型且稠密的向量中。预测方法则试图直接从某词汇的邻近词汇对其进行预测,在此过程中利用已经学习到的小型且稠密的嵌套向量。Word2vec 是一种可以进行高效率词嵌套学习的预测模型。其两种变体分别为:连续词袋模型( CBOW)及 Skip-Gram 模型。从算法角度看,这两种方法非常相似,其区别为CBOW 根据源词上下文词汇( "thecat sits on the")来预测目标词汇(例如, "mat"),而Skip-Gram 模型做法相反,它通过目标词汇来预测源词汇。 Skip-Gram 模型采取 CBOW的逆过程的动机在于: CBOW 算法对于很多分布式信息进行了平滑处理(例如将一整段上下文信息视为一个单一观察量)。很多情况下,对于小型的数据集,这一处理是有帮助的。相形之下, Skip-Gram 模型将每个“上下文---目标词汇”的组合视为一个新观察量,这种做法在大型数据集中会更为有效。