NLP复习总结

最新推荐文章于 2024-02-28 19:40:07 发布

Fang Suk

最新推荐文章于 2024-02-28 19:40:07 发布

阅读量263

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/MrR1ght/article/details/116804403

版权

自然语言处理专栏收录该内容

20 篇文章 3 订阅

订阅专栏

NLP复习总结

1. 词嵌入

word2vec

word2vec核心要点：

1.两个重要模型：CBOW(continuous Bag-of-words Model)、skip-gram模型。

投影层不使用激活函数

2.两个高效优化技巧：Hierarchical softmax、Negativa sampling。

负采样顾名思义就是对负样本就行采样，需要一个概率分布，使用词频的(3/4)此幂。

3.其他技巧：二次采样、短语学习

二次采样：滑动窗口生成样本时，减少对高频词的采样（如：的，得）。
$p(w_i)=max(1-\sqrt{\frac{t}{f(w_i)}},0)$
有两个作用：（1）加速收敛，减少对无意义词的采样。（2）缓解类别不均衡问题（相当于欠采样）。

短语学习：。 $A i r$ 和 $C a n a d a$ 的词向量相加不能表示 $Air\ Canada$ 加拿大航空的含义。短语学习的目的是将常用的短语组成一个token放入词表。使用点互信息合并短语：
$score(w_i,w_j)=\frac{count(w_iw_j)-\delta}{count(w_i)\times count(w_j)}$

ELMO

ELMO词向量表示：
$ELMO_k^{task}=\gamma^{task}\sum_{j=0}^Ls_j^{task}h_{kj}^{LM}$
$\gamma$ 用来控制ELMO模型在不同任务生成的向量大小，因为LSTM的表示和下游任务的词向量表示存在差异。 $s_j$ 是softmax-normalized weights。

如何用于下游任务：

先冻结BI-LSTM的参数，将elmo的词向量表示 $ELMO_k^{task}$ 和 $x_k$ 拼接起来，得到增强表示 $x_k,ELMO_k^{task}]$ 。 $\gamma^{task},s_j^{task}$ 是需要和下游任务一起学习的参数。

FastText字词嵌入

思想：

在word2vec的基础上引入构词学：

（1）相似单词映射为同一token，如dog和dogs，cat和cats。

（2）组合单词，boyfriend等

fasttext中每个中心词被表示为字词的集合。以单词where为例，将单词当成一个有字符组成的序列来提取n元语法。并在单词的首尾分别添加 < 和 > 以区分作为前后缀的子词。当n=3时，所有的字词为 $< w h >, w h e, h e r, e r e, < r e >$ 以及特出子词 $< w h e r e >$ 。

词向量表示：

对于一个词，将它所有长度在3~6的子词和特殊子词的并集记为 $\textbf{g}_w$ ，词典是所有词的子词集合的并集。假设词典中子词g的词向量为 $z_g$ 。那么跳字模型中词w作为中心词的向量 $v_w$ 表示为：
$v_w=\sum_{g\in\textbf{g}_w}z_g$
优缺点：