cs224n笔记
lcomecon
这个作者很懒,什么都没留下…
展开
-
cs224n-第十课 机器翻译(SMT,NMT)
机器翻译模型1 Statistical Machine Translation(SMT)SMT是基于统计的机器翻译:假设模型是中文—> 英语,给定中文句子x,为了找到最匹配的英语句子y,定义目标函数:argmaxyP(y∣x)argmax_yP(y|x)argmaxyP(y∣x)根据Bayes规则,将目标函数转化为如下函数:argmaxyP(x∣y)P(y)argmax_yP(x|y)P(y)argmaxyP(x∣y)P(y)对齐的规则(一对多,或者,多对一),计算太复杂,y的原创 2020-05-31 18:59:09 · 1868 阅读 · 0 评论 -
cs224n-第9课(GRU-LSTM)
1 GRU (Gated Recurrent Unit)更新门(update gate):zt=δ(W(z)xt+U(z)ht−1)z_t=\delta(W^{(z)}x_t+U^{(z)}h_{t-1})zt=δ(W(z)xt+U(z)ht−1)重置门(reset gate):rz=δ(W(r)xt+U(r)ht−1)r_z=\delta(W^{(r)}x_t+U^{(r)}h_{t-1})rz=δ(W(r)xt+U(r)ht−1)记忆门(new memory state):..原创 2020-05-31 15:21:35 · 225 阅读 · 0 评论 -
cs224n-第8课(RNN与语言模型)(附简单代码)
RNN的优缺点:优点:可以处理任意长度的输入步骤t的计算(理论上)可以利用到之前的信息模型大小不会随着输入的增加而增加在每个时间步上应用相同的权重,处理输入时有对称性缺点:递归计算速度慢在实践中,很难从许多步骤前返回信息RNN模型介绍:ht=δ(W(hh)ht−1+Whxxt)h_t=\delta(W^{(hh)}h_{t-1}+W^{hx}x_t)ht=δ(W(hh)ht−1+Whxxt)y^t=softmax(W(s)ht)\hat{y}_t=softmax原创 2020-05-30 14:32:33 · 491 阅读 · 0 评论 -
cs224n-第六课 依存分析(Dependency Parsing)
标记一下吧,只了解一个大概,后续用到了或者需要更深的理解,再来补!原创 2020-05-24 17:05:30 · 243 阅读 · 0 评论 -
cs224n-第4课 window classification, Nerual network
1. 交叉熵损失(Cross-Entroy loss)信息论中的概念,衡量两个概率分布间的差异性信息。我们假设真实概率为p,程序模型计算的概率为q,类别总数为C,那么交叉熵为:H(p,q)=−∑c=1Cp(c)logq(c)H(p,q)=-\sum_{c=1}^{C}p(c)\log q(c)H(p,q)=−c=1∑Cp(c)logq(c)当p是groud truth的概率分布时,此时p=[0,…,0,1,0,…0],即为one-hot向量,因为其它的p©=0,所以只需要计算p©=1的即可。原创 2020-05-20 16:14:07 · 195 阅读 · 0 评论 -
cs224n-第二课-word2vec
1.one-hot编码为了机器更加方便的计算,将字或者词转化为向量进行计算更加方便,机器也能更好的识别。使用one-hot编码,one-hot的编码的意思是:字典库中有n个词,每个词都有一个对应的向量,向量的维度为1*n,第2个词的向量为[0,1,0,……,0]T[0,1,0,……,0]^T[0,1,0,……,0]T,同理第三个词的向量为[0,0,1,……,0]T[0,0,1,……,0]^T[0...原创 2020-03-25 21:58:35 · 279 阅读 · 2 评论