cs224n 笔记1,2

最新推荐文章于 2022-07-31 17:29:01 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2022-07-31 17:29:01 发布

阅读量255

点赞数

分类专栏： nlp 文章标签： cs224n

本文链接：https://blog.csdn.net/liuerin/article/details/90046155

版权

nlp 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

找到了大神的笔记,码一下，一起分享

以下是我的渣记

文章目录

lecture1: NLP简介

NLP,natural language processing

1.自然语言的层次

输入有两种，语音、文本

单词分析
句法分析
语义分析

2.传统机器学习vs深度学习

深度学习是机器学习的分支

机器学习，通常人类提取特征，决定哪些特征进行组和分析，或为某些特征设计模板；通过机器学习算法，最优化权值
深度学习，自己学习到原始输入的多层特征表示

3.NLP的难点

语言模棱两可；程序需要各种明确规则
语言有上下文、依赖于常识、背景知识

lecture2: 词向量表示

1.单词的表示

1.1分类表示系统(discrete representation)

缺点：
- 某些同义词之间还是有些微小差别体现不出，比较主观
- 词库太多，向量超长
- 例如onehot编码，无法通过运算得到相似性。可能两个词是同一个意思，但两个向量正交
需求：建立一个向量直接编码词含义的系统。通过两个向量点积求体现相似性

1.2分布式表示系统(distributes representation)

分布相似性理论(distributional similarity：通过上下文得到一个词的意思
通过调整单词向量，使上下文单词互相预测。
可以通过向量间运算推测单词的关系

2.词嵌入神经网络(word embedding)

模型可以预测某单词上下文，表示为
$p(context|w_t)$
损失函数：
$J=1-p(w_{-t}|w_t)$
其中 $w_t$ 指中心词汇； $w_{-t}$ 指 $w_t$ 的上下文词汇(负号表示除中心词外)。
最优化 $w_t$ 以最小化损失函数

3.word2vec

中心词和上下文彼此预测。

有两个算法：
- Skip-grams(SG):给定中心预测上下文
- Continuous Bag of Words(CBOW):利用上下文的词袋预测目标
两个效果稍高效的训练方法：
- Hierarchical softmax
- negative sampling
  但这门课只讲naive softmax

4.skip-gram

4.1 模型

所有的单词 $t=1,\cdots,T$ , 中心词位置为t，预测左/右侧距离m内的单词。模型表示为
$p(w_{t+j}|w_t),-m\leqslant j \leqslant m,j\neq 0$

4.2 最大似然估计

参数 $\theta$ 是整个模型中的唯一参数。
使每个上下文词出现的概率尽可能的大，计算最优 $\theta$
$\begin{aligned} \max J'(\theta) &= \prod_{t=1}^T \prod_{-m\leqslant j \leqslant m \atop j\neq 0}p(w_{t+j}|w_t;\theta) \end{aligned}$
取负对数，最小化目标函数
$\min J(\theta) = -\frac{1}{T}\sum_{t=1}^T\sum_{-m\leqslant j \leqslant m \atop j\neq 0} \log p(w_{t+j}|w_t)$
其中 $T$ 是词个数。得到负对数似然函数 $J(\theta)$

4.3 用softmax得到上下文概率分布

$\frac{exp(u^T_ov_c)}{\sum_{w=1}^Vexp(u^T_wv_c)}$
其中 $c$ 是中心词在中心词矩阵中的索引， $o$ 是上下文矩阵中的索引。 $v_c$ 是中心词向量， $u_o$ 是上下文词向量。

利用softmax函数将数值映射为概率分布。
向量间的点积可以估计相似性

4.4 skip-gram的神经网络

$w_t$ ，词的onehot向量，维度 $\times 1$ （V是中心词空间中所有词的数目）
$W$ ，中心词空间的嵌入矩阵（代表每个词作为中心词时的向量v组成的矩阵），维度 $\times V$ (d是词向量的长度，每列就是一个词向量)
$v_c=Ww_t$ ，是词 $w_t$ 的词向量，维度为 $\times 1$
$W^{'}$ ，上下文的矩阵（代表每个词作为上下文时的向量u组成的矩阵），维度为 $\times d$
$W'v_c=[u_x^Tv_c]$ ，上下文矩阵与中心词词向量相乘，得到每个词与中心词的“相似度”，维度为 $V\times1$
$P(x|c)=softmax(u_x^T|v_c)$ ，用softmax映射为概率，维度为 $V\times1$
用真实值与概率对比计算损失

上面这个图片拷贝自大神博客

我们要学习 $W$ 和 $W^{'}$ 。两个矩阵都含有V个词向量，那么每个单词有2个d维向量（作为中心词时的向量 $v$ ，和作为上下文时的向量 $u$ ）。
可以每次学习单个 $v_c$ 和 $u_o$ 。
对于模型来说，把 $W$ 和 $W^{'}$ 矩阵所有值叠加起来，那么参数 $\theta \in R^{2dV}$

4.5 利用梯度下降最小化目标函数

对中心词参数 $v_c$ 求导
$\begin{aligned} p(o|c) &= \frac{exp(u^T_ov_c)}{\sum_{w=1}^Vexp(u^T_wv_c)}\\ \frac{\partial{}}{\partial{v_c}}\log \frac{exp(u^T_ov_c)}{\sum_{w=1}^Vexp(u^T_wv_c)}&=\frac{\partial{}}{\partial{v_c}}\log exp(u^T_ov_c) - \frac{\partial{}}{\partial{v_c}}\log \sum_{w=1}^Vexp(u^T_wv_c) \\ &=u_o - \frac{\sum_{x=1}^Vexp(u^T_xv_c)u_x}{\sum_{w=1}^Vexp(u^T_wv_c)} \\ &=u_o - \sum_{x=1}^V\frac{exp(u^T_xv_c)}{\sum_{w=1}^Vexp(u^T_wv_c)}u_x \\ &=u_o - \sum_{x=1}^Vp(x|c)u_x \end{aligned}$
式中的 $u_o$ 代表当前值， $\sum_{x=1}^Vp(x|c)u_x$ 是当前所有上下文的平均值
还需要对 $u_o$ 求导
之后梯度下降法
$\theta' \leftarrow \theta - \alpha \nabla J(\theta)$

ErinLiu虎哥的铲屎员

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
cs224n 笔记1,2

找到了大神的笔记,码一下，一起分享CS224n笔记1 自然语言处理与深度学习简介，CS224n笔记2 词的向量表示：word2vec，word2vec原理推导与代码分析以下是我的渣记文章目录lecture1: NLP简介1.自然语言的层次2.传统机器学习vs深度学习3.NLP的难点lecture2: 词向量表示1.单词的表示1.1分类表示系统(discrete representa...
复制链接

扫一扫

专栏目录