CS244n NLP with Deep Learning | Winter 2019

这是一份关于CS244n深度学习自然语言处理课程的详细笔记,涵盖了从word2vec到Transformer的各种主题,包括词向量、RNN、注意力机制、NMT、BERT等。笔记讨论了模型的优缺点,如n-gram、SMT与NMT的比较,并介绍了不同的训练方法,如最大似然训练、负采样和注意力机制。此外,还涉及到了词性标注、依存解析、实体链接和消除偏见在AI中的重要性。
摘要由CSDN通过智能技术生成

Lecture 1

word2vec

在这里插入图片描述

每一个单词可以变成一个vector, 相似的word vector也相似
word = [ 0.23 0.52 − 0.41 − 0.31 0.27 0.48 ] \begin{bmatrix} 0.23 \\ 0.52 \\ -0.41 \\ -0.31 \\ 0.27 \\ 0.48 \end{bmatrix} 0.230.520.410.310.270.48
J ( θ ) = 1 T ∑ t = 1 T ∑ − m ≤ j ≤ m j ≠ 0 log ⁡ p ( w t + j ∣ w t ; θ ) J(\theta) = \frac{1}{T}\sum^T_{t=1} \sum_{\begin{matrix}-m \le j \le m \\ j \neq 0 \end{matrix}} \log p(w_{t+j} | w_{t; \theta}) J(θ)=T1t=1Tmjmj=0logp(wt+jwt;θ)
这里m是单词j的sliding window的左右长度
截图
θ = [ v a p p l e v b a n a n a v z e b r a . . . v a p p l e v b a n a n a v z e b r a ] = R 2 d v \theta = \begin{bmatrix} v_{apple} \\ v_{banana} \\ v_{zebra} \\ ... \\ v_{apple} \\ v_{banana} \\ v_{zebra} \end{bmatrix} = \mathbb{R}^{2dv} θ=vapplevbananavzebra...vapplevbananavzebra=R2dv
重复因为每个词有center和context两种representation。
derivative: ∂ log ⁡ ( p ) ( e x p ( u o T V ˙ c ) ∑ e x p ( u o T V ˙ c ) ) ∂ v c = u 0 − \frac{\partial \log(p)(\frac{exp(u_o^T \dot V_c) }{ \sum exp(u_o^T \dot V_c)})} {\partial v_c} = u_0 - vclog(p)(exp(uoTV˙c)exp(uoTV˙c))=u0
∂ ∂ v c l o g ∑ w = 1 V exp ⁡ ( u w T v ˙ c ) = 1 ∑ w = 1 v exp ⁡ ( u w T v c ) ∗ ∑ x = 1 V exp ⁡ ( u x T v c ) ∂ ∂ v c u x T v c = u 0 − ∑ x = 1 V exp ⁡ ( u x T v c ) u x ∑ w = 1 v exp ⁡ ( u w T v c ) = u 0 − ∑ x = 1 V p ( x ∣ c ) u x \frac{\partial }{\partial v_c}log\sum_{w=1}^V \exp(u_w^T \dot v_c) = \frac{1} {\sum_{w=1}^v \exp(u^T_w v_c)} * \sum_{x=1}^V\exp(u_x^Tv_c) \frac{\partial}{\partial v_c}u_x^Tv_c = \\ u_0 - \frac{ \sum_{x=1}^V \exp(u_x^Tv_c) u_x} {\sum_{w=1}^v \exp(u^T_w v_c)} = u_0 - \sum_{x=1}^Vp(x|c) u_x vclogw=1Vexp(uwTv˙c)=w=1vexp(uwTvc)1x=1Vexp(uxTvc)vcuxTvc=u0w=1vexp(uwTvc)x=1Vexp(uxTvc)ux=u0x=1Vp(xc)ux
https://medium.com/@zafaralibagh6/a-simple-word2vec-tutorial-61e64e38a6a1
疑问:是不是WI指的是 u w u_w uw, WO指的是 v w v_w vw ?

Lecture 2

Gradient descent
θ n e w = θ o l d − α ∇ θ J ( θ ) \theta^{new} = \theta^{old}- \alpha \nabla_\theta J(\theta) θnew=θoldαθJ(θ), α \alpha α is the learnnig rate
Stochastic Gradient Descnet and negative sampling
P ( O ∣ C ) = e x p ( u o T V ˙ c ) ∑ w ∈ V e x p ( u w T V ˙ c ) P(O|C) =\frac{exp(u_o^T \dot V_c) }{ \sum_{w \in V} exp(u_w^T \dot V_c)} P(OC)=wVexp(uwTV˙c)exp(uoTV

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值