nlp
Multi-task
这个作者很懒,什么都没留下…
展开
-
[2017-NIPS-GOOGLE] Attention is all your need
文章目录论文地址:主要方法结构:EncoderSelf-Attention三个矩阵的使用方法:ffnnadd & normDecoderEncoder-Decoder Attention 论文地址: https://arxiv.org/pdf/1706.03762.pdf 主要方法 抛弃使用Recurrent 和convolutional neural networks的结果。 只使用Se...原创 2019-07-07 15:44:49 · 170 阅读 · 0 评论 -
RNN, LSTM, GRU
RNN, LSTM, GRULSTM 各部分重要性 LSTM 各部分重要性 去掉其中的某一个部件之后, 错误率的变化. CIFG结构类似GRU. 参考: 刘宏毅 深度学习原创 2019-08-04 14:19:27 · 188 阅读 · 0 评论 -
NCE(Noise Contrastive Estimation) 与negative sampling
NCE Noise Contrastive Estimation与negative sampling负例采样背景NCE(Noise Contrastive Estimation)Negative Sampling参考文献 背景 要解决的问题是, 当label太多, 导致使用传统的softmax 输出结果巨大, 计算不高效, 甚至无法实操的问题. 比如: word2vec cbow的负例. 或者其...原创 2019-08-22 23:43:23 · 1542 阅读 · 0 评论