word2vec（一）——skip-gram原理理解

最新推荐文章于 2024-07-26 21:18:06 发布

我对算法一无所知

最新推荐文章于 2024-07-26 21:18:06 发布

阅读量5.9k

点赞数 14

分类专栏： JDNLP 历程

本文链接：https://blog.csdn.net/qq_31267769/article/details/108235589

版权

本文详细介绍了word2vec中的skip-gram模型，解释了其通过中心词生成上下文词的任务，以及Fake Task的概念。skip-gram通过最大化条件概率来学习词向量，其输入层使用one-hot编码，隐层负责降维，输出层是softmax分类器。文章还探讨了模型的训练过程和词向量的优化方法。

摘要由CSDN通过智能技术生成

1 什么是word2vec

word2vec顾名思义，就是将词（word）映射到（to）实向量（vector），用一一实数向量表示一个词，也被叫做词嵌入（word embedding），也可以认为词向量是词的特征向量。通过这种词嵌入的方式可以将词语映射为可以计算的数学形式，使计算机对自然的语言的计算变得更加可行，同时也赋予了它一定的数学性质，例如可以用向量的相似度来表示两个词的相似度等等。word2vec可以参考这篇文章中有提到https://blog.csdn.net/qq_31267769/article/details/108036005。

最简单的一种方式就是利用一个维数为V的onehot向量表示一个长度为V的词库，这种方法用词的index平等的表示了词库中的每个词，但是显然不是一个好的方法。onehot向量是一共稀疏向量，并且维数与词库中词数相同，当词数很大，这种表示的计算效率就很低，并且很多神经网络工具很难计算高维的稀疏向量。此外，用onehot表示词语也会出现一个问题，不同的词向量永远两两正交，没有办法用相似度来计算两个词的关系，也就是onehot的表示形式忽略了两个词之间的关系。