NLP复习总结

NLP复习总结

1. 词嵌入

word2vec

word2vec核心要点:

1.两个重要模型:CBOW(continuous Bag-of-words Model)、skip-gram模型。

投影层不使用激活函数

2.两个高效优化技巧:Hierarchical softmax、Negativa sampling。

负采样顾名思义就是对负样本就行采样,需要一个概率分布,使用词频的(3/4)此幂。

3.其他技巧:二次采样、短语学习

二次采样:滑动窗口生成样本时,减少对高频词的采样(如:的,得)。
p ( w i ) = m a x ( 1 − t f ( w i ) , 0 ) p(w_i)=max(1-\sqrt{\frac{t}{f(w_i)}},0) p(wi)=max(1f(wi)t ,0)
有两个作用:(1)加速收敛,减少对无意义词的采样。(2)缓解类别不均衡问题(相当于欠采样)。

短语学习:。 A i r Air Air C a n a d a Canada Canada的词向量相加不能表示 A i r   C a n a d a Air\ Canada Air Canada加拿大航空的含义。短语学习的目的是将常用的短语组成一个token放入词表。使用点互信息合并短语:
s c o r e ( w i , w j ) = c o u n t ( w i w j ) − δ c o u n t ( w i ) × c o u n t ( w j ) score(w_i,w_j)=\frac{count(w_iw_j)-\delta}{count(w_i)\times count(w_j)} score(wi,wj)=count(wi)×count(wj)count(wiwj)δ

ELMO

ELMO词向量表示
E L M O k t a s k = γ t a s k ∑ j = 0 L s j t a s k h k j L M ELMO_k^{task}=\gamma^{task}\sum_{j=0}^Ls_j^{task}h_{kj}^{LM} ELMOktask=γtaskj=0LsjtaskhkjLM
γ \gamma γ用来控制ELMO模型在不同任务生成的向量大小,因为LSTM的表示和下游任务的词向量表示存在差异。 s j s_j sj是softmax-normalized weights。

如何用于下游任务:

先冻结BI-LSTM的参数,将elmo的词向量表示 E L M O k t a s k ELMO_k^{task} ELMOktask x k x_k xk拼接起来,得到增强表示 [ x k , E L M O k t a s k ] [x_k,ELMO_k^{task}] [xk,ELMOktask] γ t a s k , s j t a s k \gamma^{task},s_j^{task} γtask,sjtask是需要和下游任务一起学习的参数。

FastText字词嵌入

思想:

在word2vec的基础上引入构词学:

(1)相似单词映射为同一token,如dog和dogs,cat和cats。

(2)组合单词,boyfriend等

fasttext中每个中心词被表示为字词的集合。以单词where为例,将单词当成一个有字符组成的序列来提取n元语法。并在单词的首尾分别添加 < 和 > 以区分作为前后缀的子词。当n=3时,所有的字词为 < w h > , w h e , h e r , e r e , < r e > <wh>,whe,her,ere,<re> <wh>,whe,her,ere,<re>以及特出子词 < w h e r e > <where> <where>

词向量表示:

对于一个词,将它所有长度在3~6的子词和特殊子词的并集记为 g w \textbf{g}_w gw,词典是所有词的子词集合的并集。假设词典中子词g的词向量为 z g z_g zg。那么跳字模型中词w作为中心词的向量 v w v_w vw表示为:
v w = ∑ g ∈ g w z g v_w=\sum_{g\in\textbf{g}_w}z_g vw=ggwzg
优缺点:

与跳字模型相比,fasttext的词典规模更大,参数更多。同时一个词的向量要对所有子词向量求和。导致计算复杂度更高。但是,对于复杂的生僻词,未登录词,可能会从与它同结构的其他词那么获得更好的词向量表示

Glove:Global Vector

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值