![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
Multi-task
这个作者很懒,什么都没留下…
展开
-
[2017-NIPS-GOOGLE] Attention is all your need
文章目录论文地址:主要方法结构:EncoderSelf-Attention三个矩阵的使用方法:ffnnadd & normDecoderEncoder-Decoder Attention论文地址:https://arxiv.org/pdf/1706.03762.pdf主要方法抛弃使用Recurrent 和convolutional neural networks的结果。 只使用Se...原创 2019-07-07 15:44:49 · 176 阅读 · 0 评论 -
RNN, LSTM, GRU
RNN, LSTM, GRULSTM 各部分重要性LSTM 各部分重要性去掉其中的某一个部件之后, 错误率的变化.CIFG结构类似GRU.参考:刘宏毅 深度学习原创 2019-08-04 14:19:27 · 199 阅读 · 0 评论 -
NCE(Noise Contrastive Estimation) 与negative sampling
NCE Noise Contrastive Estimation与negative sampling负例采样背景NCE(Noise Contrastive Estimation)Negative Sampling参考文献背景要解决的问题是, 当label太多, 导致使用传统的softmax 输出结果巨大, 计算不高效, 甚至无法实操的问题.比如:word2vec cbow的负例.或者其...原创 2019-08-22 23:43:23 · 1553 阅读 · 0 评论