Keras深度学习实战(25)——使用skip-gram和CBOW模型构建单词向量
0. 前言
在《构建单词向量》一节中,我们已经学习了如何从零开始构建了一个用于计算单词向量的模型。在本节中,我们将继续学习如何使用 gensim
库构建 skip-gram
和 CBOW
模型获取单词向量。
1. skip-gram 和 CBOW 模型
1.1 CBOW 模型基本原理
我们在本小节中使用连续单词袋 (Continuous Bag of Words
, CBOW
) 模型构建单词向量。以 “I love watching movie
” 为例,CBOW
模型处理此语句的方式如下:
- 使用一个尺寸为
1
的特定窗口 - 通过指定窗口大小,也表示指定了在给定单词的右侧和左侧将考虑的单词数
- 给定窗口大小
1
,则输入和输出单词如下所示:
输入单词 | 输出单词 |
---|