![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文笔记
文章平均质量分 88
月夜长影
专注技术学习。
展开
-
论文笔记 | Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers
介绍常规Transoformer的计算复杂度是O(L2d)O(L^2d)O(L2d),空间复杂度是O(L2)O(L^2)O(L2),在长序列的情况下,比如基因序列的处理,序列长度LLL太大会导致计算成本大到难以接受。本文提出Fast Attention Via Orthogonal Random features (FAVOR)方法,在不改变原先transformer模型架构的前提下,高效地估计出attention矩阵,时间复杂度为O(Ld2logd)O(Ld^2\log d)O(Ld2logd),空原创 2021-05-24 21:27:23 · 388 阅读 · 0 评论 -
机器翻译 | Grid Beam Search 和 Dynamic Beam Allocation 和 Cube Pruning (网格束搜索和动态束分配和立体剪枝)
介绍本文介绍两篇文章的大致内容:Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search提出了grid beam search (GBS)Fast Lexically Constrained Decoding with Dynamic Beam Allocation for Neural M...原创 2019-12-10 10:22:26 · 1555 阅读 · 2 评论 -
机器翻译 | 反向翻译 (back-translation) 笔记
介绍为了更好地利用目标语言单语语料, Improving Neural Machine Translation Models with Monolingual Data 提出了两种方式假如有目标语言句子y, 将源语言对应的句子设置为空, 得到句对 (dummy, y), 加入到平行语料中进行训练. 这样在有平行句对和(dummy, y)句对的情况下, 训练翻译系统可以想想成翻译和语言模型多任...原创 2019-12-08 21:01:36 · 10445 阅读 · 0 评论 -
f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization 论文笔记
未完成原创 2019-11-30 19:45:33 · 527 阅读 · 0 评论 -
Word Piece Model (WPM) 笔记
介绍在翻译或者其他NLP问题中,词表大小有限制,为了解决有些词不在词表中(OOV),一个常用的方法是使用sub-word单元来构建词表示,这样未出现的词也可以用这些sub-wrod单元进行表示,如Byte Pair Encoding(BPE),Word Piece Model(WPM)。BPE论文: Neural machine translation of rare words with s...原创 2019-11-13 17:34:27 · 1788 阅读 · 0 评论