【2019-CS224n】Lecture 01 Introduction and Word Vectors

B&&C

于 2019-11-03 23:24:58 发布

阅读量196

点赞数

分类专栏： CS224n训练营

本文链接：https://blog.csdn.net/lzbmc/article/details/102883330

版权

3 篇文章 0 订阅

订阅专栏

plan

我们如何表达一个词的意思?

是dense vector(即大多数元素不为零且维度较小的向量)，也被称为word embedding 或word representation。它们是分布式表示。
维度：通常不低于50。降为二维进行可视化。
这里是以SKip-gram为例展开的。

固定词汇表中的每个单词都由一个向量表示
遍历文本中的每个位置t，其中有一个中心词c和上下文(外部)单词o
使用向量c和o的相似度来计算给定c的o的概率(反之亦然)
不断调整单词向量，以使得上下文词出现概率最大（Skip-Gram）
如图是窗口大小为2，中心词为into的context words的概率表示（预测每个单词周围的单词）：

扫描到下一个位置：

极大似然估计：(最大化)：这些条件概率的累乘积
对于每个位置 $t = 1, . . ., T$ ，给定中心单词 $w_j$ ，预测固定大小 $m$ 的窗口内的概率最大上下文单词

objective function也叫cost or loss function。
取对数和负平均
目标函数为 ${\color{Red} (平均)负对数似然}$ （最小化）

最小化目标函数 $\Leftrightarrow$ 最大化似然函数 $\Leftrightarrow$ 最大化准确率。
如何计算每个条件概率？
每个词w用两种向量表示：
- $v_w$ ：是中心词的词向量；
- $u_w$ 是上下文的词向量.
  因为同一个词，在不同时刻可能作为中心词也可能作为上下文的词。
  prediction function：
利用梯度下降算法优化参数训练模型
这里的 $\theta$ 是 $v_c$ ，对 $v_c$ 求偏导：

Gensim本身不支持Glove Vector，需要将Glove文件格式转换为word2vec文件格式
在这里插入图片描述

关注

专栏目录