2021斯坦福CS224N课程笔记~1

波悠悠的菠萝

已于 2022-08-01 10:26:48 修改

阅读量1k

点赞数 1

文章标签：自然语言处理机器学习人工智能

于 2022-07-31 17:29:01 首次发布

本文链接：https://blog.csdn.net/qq_29216461/article/details/126086970

版权

leture 1~Introduction and Word Vectors

首先简要介绍传统NLP的缺陷和分布式语义思想，其次重点讲解word2vec模型。

1.传统NLP的缺陷：把词语看作离散的符号，one-hot编码，向量维度过大；
2.分布式语义思想：一个单词的意思是由经常出现在它附近的单词给出。

思想：有大量文本语料，固定词汇表的每个单词由一个向量表示，文本中的每个位置t均有一个中心词c和上下文单词o，使用c和o的词向量的相似性来计算给c的o的概率 (反之亦然)，不断调整词向量最大化这个概率。
目标函数：对于每个位置t=1,…,T，在大小为m的固定窗口内预测上下文单词，给定中心词wt，，其概率函数为
损失函数为

问题：如何计算概率P(w_(t+j)│w_t;θ)~即采用每个单词的两个向量(vw和uw,w分别是中心词和上下文词)，即

使用梯度下降法进行更新，计算如下

当P(o|c)→1，即通过中心词c可以正确预测上下文词o，此时不需要调整uo ，反之相应调整。

首先简要介绍优化算法：梯度下降（GD）和随机梯度下降（SGD），其次介绍Word2vec模型的变体：Sikp-gram和CBOW模型，前者输入中心词预测上下文中的单词，后者输入上下文单词并预测中心词，最后重点介绍Glove模型。

以负采样的Skip-gram模型为例：
目标函数：
在这里插入图片描述
现目标函数：