自然语言处理NPL

最新推荐文章于 2024-04-10 20:54:36 发布

杨提督门下

最新推荐文章于 2024-04-10 20:54:36 发布

阅读量749

点赞数

分类专栏：知识图谱文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/liuxingxing_sun/article/details/112689386

版权

知识图谱专栏收录该内容

5 篇文章 1 订阅

订阅专栏

origin from :datawhale team

文章目录

Attention
- Seq2Seq
Transformer

Attention

Seq2Seq

Transformer

Word2Vec

Word vectors

我们将为每个单词构建一个稠密的向量，使得它能够与相似文本里的词向量相近，word meaning 作为一种神经词向量，在我们对向量空间进行可视化：

注：word vector 有时也叫做 word embedding 或者 word representations，他们都是一种表示结构。

Word2vec：Overview

Word2vec(Mikolov et al. 2013) 是一种学习词向量的框架，包含大量的文本语料，固定词表中的每一个单词由一个词向量表示，文本中的每个单词位置 t，有一个中心词c，和它的上下文 o（除了 c 的外部单词）。

通过 c 和 o 的词向量相似性来计算 P（o/c），不断的调整词向量，最大化概率，固定窗口，滑动窗口并计算：

Word2vec的目标函数：

对于每个位置 t = 1,…,T，固定窗口大小m，给定中心词wj:
$likelihood=L(\theta)=\prod_{t=1}^{T}\prod_{-m \le j \le m\\ \ \ \ \ j\ne0}^{}p(w_{t+j}|w_t;\theta)$
注： $\theta$ 是需要优化的参数

（ $J（\theta）=-\frac 1TlogL(\theta)=-\frac1T\sum_{t=1}^T\sum_{-m\le j\le m \\ \ \ \ \ j\ne 0}logP(w_{t+j}|w_t;\theta)$
）
注：

$J(\theta)$ 为损失函数（这里是平均负对数似然）；
负号将极大化损失函数转化为极小化损失函数；
log函数方便将乘法转化为求和（优化处理）

如何计算？

问：如何计算 $P(w_{t+j}|w_t;\theta)$ ?

答：对于每个单词 w 我们使用两个向量 $v_w$ 和 $u_w$

$v_w$ ：当 w 是中心词时

$u_w$ ：当 w 是上下文单词时

对于中心词 c 和上下文单词 o，有：

$P(o|c)=\frac {exp(u_o^Tv_c)}{\sum_{w\epsilon V}exp(u_w^Tv_c)}$

在概率函数中：
$P(o|c)=\frac {exp(u_o^Tv_c)}{\sum_{w\epsilon V}exp(u_w^Tv_c)}$
分子取幂函数使得始终可以为正

向量 $u_o$ 和向量 $v_c$ 点乘，点乘结果越大，向量之间越相似

$u^Tv=u·v=\sum_{i=1}^nu_iv_i$

对整个词表标准化，给出概率分布

softmax函数进行归一化（深度学习中常用）： $\Bbb{R^n}\to \Bbb{R^n}$

（公式 $\frac {exp(x_i)}{\sum_{j=1}^nexp(x_j)}=p_i$

）
注：用于将任意值 $x_i$ 映射到概率分布 $p_i$

Word2vec objective function gradients
Training a model by optimizing parameters

（通过优化参数的方式训练模型）- 最小化损失

To train the model: Compute all vector gradients

整个模型里只有一个参数 $\theta$ ,所以我们只用优化这一个参数就行。

例如：模型在一个 d 维，词典大小为 V :
$\theta=\begin{bmatrix}v_{aardvark}\\v_a\\\vdots\\v_{zebra}\\u_{aardvark}\\u_a\\\vdots\\u_{zebra} \end{bmatrix}\epsilon\ \Bbb R^{2dV}$
2：每个单词有两个向量

通过梯度（导数）下降的方式优化参数

梯度下降会用到链式法则

迭代计算每个中心词向量和上下文词向量随着滑动窗口移动的梯度

依次迭代更新窗口中所有的参数

Example：

5. Optimization basics

Optimization：Gradient Descent（梯度下降）

我们的损失函数 $J(\theta)$ 需要最小化
使用的方法为：梯度下降
对于当前 $\theta$ ,计算 $J(\theta)$ 的梯度
然后小步重复朝着负梯度方向更新方程里的参数 $\alpha=(step\ size)\ or\ (learning\ rate)$
$\theta^{new}=\theta^{old}-\alpha \nabla_\theta J(\theta)$
更新唯一的参数 $\theta$ :
$\theta_j^{new}=\theta_j^{old}-\alpha \frac \alpha{\alpha\ \theta_j^{old}}J(\theta)$

while True:
	theta_grad = evaluate_gradient(J,corpus,theta)
  theta = theta - alpha * theta_grad

SGD:Stochastic Gradient Descent

由于 $J(\theta)$ 是在语料文本中所有窗口的方程
当语料很大的时候，计算梯度会消耗巨大
解决办法：SGD

不断sample窗口，不断更新

while True:
  window = sample_window(corpus)
  theta_grad = evaluate_gradient(J,window,theta)
  theta = tehta - alpha * theta_grad

# GloVe GloVe的全称是GloVe: [bal ](https://nlp.stanford.edu/projects/glove/)[Ve](https://nlp.stanford.edu/projects/glove/)[ctors for Word Representation](https://nlp.stanford.edu/projects/glove/)

是这门课的老师Christopher D. Manning的研究成果

GloVe目标是综合基于统计和基于预测的两种方法的优点。

模型目标：词进行向量化表示，使得向量之间尽可能多地蕴含语义和语法的信息

流程：输入语料库–> 统计共现矩阵–> 训练词向量–>输出词向量

构建统计共现矩阵X

Xij代表单词
i表示上下文单词

j表示在特定大小的上下文窗口（context window）内共同出现的次数。这个次数的最小单位是1，但是GloVe不这么认为：它根据两个单词在上下文窗口的距离dd.

提出了一个衰减函数（decreasing weighting）：用于计算权重，也就是说距离越远的两个单词所占总计数（total count）的权重越小。

构建词向量和共现矩阵之间的关系

公式

$w_{i}^{T} \tilde{w}_{j}+b_{i}+\tilde{b}_{j}=\log \left(X_{i j}\right)$

其中， $w_{i}^{T}$ 和 $\tilde{w}_{j}$ 是我们最终要求解的词向量； $b_{i}$ 和 $\tilde{b}_{j}$ 分别是两个词向量的bias term
那它到底是怎么来的，为什么要使用这个公式？为什么要构造两个词向量 $w_{i}^{T}$ 和 $\tilde{w}_{j}$ ？

有了上述公式之后，我们可以构建Loss function:
$J=\sum_{i, j=1}^{V} f\left(X_{i j}\right)\left(w_{i}^{T} \tilde{w}_{j}+b_{i}+\tilde{b}_{j}-\log \left(X_{i j}\right)\right)^{2}$
loss function的基本形式就是最简单的mean square loss，只不过在此基础上加了一个权重函数$ f\left(X_{i j}\right) $，那么这个函数起了什么作用，为什么要添加这个函数呢？我们知道在一个语料库中，肯定存在很多单词他们在一起出现的次数是很多的（frequent co-occurrences），那么我们希望：

这些单词的权重要大于那些很少在一起出现的单词，因此这个函数要是非递减函数（non-decreasing）；
但这个权重也不能过大，当到达一定程度之后当不再增加；
如果两个单词没有在一起出现，也就是 $X_{i j}$ ,那么他们应该不参与到loss function的计算当中去，也就是f(x)要满足f(x)=0

为此，作者提出了以下权重函数：

$f(x)=\left\{\begin{array}{cc} \left(x / x_{\max }\right)^{\alpha} & \text { if } x<x_{\text {max }} \\ 1 & \text { otherwise } \end{array}\right.$

实验中作者设定 $x_{\max }=100$ ，并且发现 $\alpha=3 / 4$ 时效果比较好。

BERT

杨提督门下

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理NPL

Word2VecWord vectors我们将为每个单词构建一个稠密的向量，使得它能够与相似文本里的词向量相近，word meaning 作为一种神经词向量，在我们对向量空间进行可视化：注：word vector 有时也叫做 word embedding 或者 word representations，他们都是一种表示结构。Word2vec：OverviewWord2vec(Mikolov et al. 2013) 是一种学习词向量的框架，包含大量的文本语料，固定词表中的每一个单词由一个词向量表
复制链接

扫一扫

专栏目录