模型-EncoderDecoder
文章平均质量分 92
模型-EncoderDecoder
nopSled
一周一更
展开
-
Ring Attention with Blockwise Transformers for Near-Infinite Context翻译
Transformer 已成为许多最先进的人工智能系统的支柱,这些系统在解决各种人工智能问题上表现出了令人印象深刻的性能。Transformer 通过使用自注意力和位置前馈机制的架构设计实现了这一成功。然而,扩大 Transformers 的上下文长度是一个挑战,因为 Transformers 固有的架构设计,即自注意力,其内存成本与输入序列长度呈二次方关系,这使得扩展到更长的输入序列具有挑战性。翻译 2024-05-23 04:45:01 · 248 阅读 · 0 评论 -
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awarenes翻译
Transformer模型已成为自然语言处理和图像分类等应用中最广泛使用的网络结构。Transformers逐渐变得更大和更深,但是使用更长的上下文仍然很困难,因为他们的核心,自注意力模块的时间和内存复杂度是序列长度的二次方。一个重要的问题是,提高注意力计算速度及内存效率是否可以帮助Transformer模型解决其运行时长和长序列的内存挑战。许多近似注意力方法旨在减少注意力的计算和内存要求。这些方法的范围包括稀疏近似,低秩近似,以及他们的组合。翻译 2023-07-30 14:42:10 · 380 阅读 · 0 评论 -
Hydra Attention: Efficient Attention with Many Heads
由于transformers的通用性和从大数据中学习的能力,在过去的几年中,transformers一直是自然语言处理(NLP)的主导模型。现在,随着Vision Transformers (ViTs)的引入,计算机视觉中也发生了同样的现象。然而,与NLP中类似于BERT或视觉中类似于ViT单纯transformers结构不同,大多数视觉的任务都是使用特定于视觉的注意力结构,例如Swin,MViT或者类似LeViT的注意力卷积。翻译 2022-10-12 17:03:45 · 611 阅读 · 0 评论 -
Optimizing Deeper Transformers on Small Datasets翻译
摘要从头开始训练深层 transformers需要大型数据集是一个普遍观点。因此,对于小型数据集,人们通常在微调期间,在预训练模型上使用较浅和简单的额外层。本项工作表明,这种情况并不是常见的:只需通过正确的初始化和优化,非常深的transformers的优势就可以转移到具有小型数据集的小型任务,包括Text-to-SQL语义解析和阅读理解。特别是,我们成功训练了48层的transformers,包括来自预训练RoBERT的24层网络和需从头开始训练的24层网络。通过较少的训练步骤,无需特定于任务的预训练,翻译 2021-11-23 13:55:48 · 218 阅读 · 0 评论 -
Neural Discrete Representation Learning
摘要翻译 2021-10-15 14:53:47 · 2636 阅读 · 0 评论 -
Tutorial on Variational Autoencoders翻译
摘要1.介绍翻译 2021-07-19 14:40:12 · 809 阅读 · 0 评论 -
Longformer: The Long-Document Transformer翻译
摘要1.介绍2.相关工作翻译 2021-06-01 13:16:27 · 891 阅读 · 0 评论 -
Big Bird: Transformers for Longer Sequences翻译
摘要基于Transformers的模型(例如BERT)已成为NLP最成功的深度学习模型之一。不幸的是,由于其全注意力的机制,它们的主要局限性之一是对序列长度的二次依赖性(主要在存储方面)。为了解决这个问题,我们建议使用BIGBIRD,这是一种稀疏的注意力机制,可以将这种二次依赖性降低为线性。我们表明,BIGBIRD是序列函数的通用近似器,并且是图灵完备的,从而保留了二次全注意力模型的这些属性。在此过程中,我们的理论分析揭示了拥有O(1)O(1)O(1)全局字符(例如CLSCLSCLS)的一些好处,这些字符翻译 2021-04-29 11:49:37 · 1194 阅读 · 0 评论 -
Levenshtein Transformer翻译
摘要翻译 2021-03-26 17:34:57 · 1331 阅读 · 0 评论 -
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting翻译
摘要许多实际应用需要对长时间序列进行预测,例如耗电量计划。长时间序列预测(LSTF)需要模型的高预测能力,这要求具有能有效捕获输出和输入之间精确的长期依赖关系的能力。最近的研究表明,Transformer具有提高预测能力的潜力。但是,Transformer存在一些严重问题,导致其无法直接应用于LSTF,例如二次时间复杂度,高内存使用率以及编码器-解码器体系结构的固有局限性。为了解决这些问题,我们为LSTF设计了一个有效的基于Transformer的模型,称为Informer,它具有三个独有的特征:(i)P翻译 2021-03-11 19:05:23 · 3849 阅读 · 4 评论 -
Attention Is All You Need翻译
摘要主流的序列转换模型都是基于复杂的循环或卷积神经网络,这个模型包含一个编码器和一个解码器。具有最好性能的模型在编码和解码之间通过一个注意力机制链接编解码器。我们提出了一个新的简单网络结构,Transformer,仅仅是基于注意力机制,而不完全是循环和卷积。两个机器翻译任务的实验表明,该模型性能更好,同时可以进行并行化,并且需要更少的时间进行训练。在WMT 2014英语到德语翻译任务上,我们的模...翻译 2019-04-11 10:24:42 · 10130 阅读 · 1 评论 -
Sequence to Sequence Learning with Neural Networks翻译
摘要在非常困难的学习任务上,深度神经网络(DNNs)模型能达到非常好的效果。虽然DNNs在大量有标记的训练数据中有很好的效果,但它们不能用于将一个序列映射到另一个序列。在这篇论文中,我们提出了一种通用的端到端序列学习方法,它对序列结构做出了最小化的假设。我们的方法使用了一个多层的长短期记忆网络(LSTM)将输入序列映射成一个固定维度的向量,然后再用另外一个深层LSTM将这个向量解码成目标序列。我...翻译 2019-01-15 10:21:20 · 1270 阅读 · 0 评论 -
RNN Encoder-Decoder翻译
在这篇文章中,我们将描述在实验中所使用的RNN编码器-解码器在结构上的细节。其中,以GRU为隐藏单元 我们令源短语为X=(x1,x2,...,xN)X=(x_1,x_2,...,x_N)X=(x1,x2,...,xN),目标短语为Y=(y1,y2,...,yM)Y=(y_1,y_2,...,y_M)Y=(y1,y2,...,yM)。每个短语是一个由K维one-hot向量组成的序列,...翻译 2018-12-07 13:25:44 · 1236 阅读 · 0 评论 -
Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation翻译
摘要在本文中,我们提出了一种新的神经网络模型,称为RNN编码器 - 解码器,由两个循环神经网络(RNN)组成。一个RNN将符号序列编码成固定长度矢量表示,而另一个RNN将该矢量表示解码成另一个符号序列。在所提出的模型中,通过最大化在给定原序列的条件下目标序列出现的概率,来同时训练编码器和解码器。在现有的对数线性模型中,通过使用由RNN编码器 - 解码器进行特征提取,来计算的短语对的条件概率,统计...翻译 2018-12-06 16:50:44 · 1203 阅读 · 0 评论