transformer
文章平均质量分 95
T1.Faker
此人很懒,什么都没有写
展开
-
融合卷积和注意力机制:有效整合它们优势的方法概述
CNNs和Transformers在计算机视觉领域都取得了巨大成功,但它们的底层原理不同,导致它们在学习数据表示方面有着不同的优势和局限性。CNNs以稀疏连接和参数共享为特点,更注重局部结构,拥有较少的参数。因此,即使在相对较小的数据集上进行训练时(例如ImageNet),它们也能很好地泛化,但在捕捉全局关系方面表现欠佳,尤其是与Transformers相比。另一方面,Transformers具有密集连接,并且根据输入值动态调整连接权重,因此它们更容易学习复杂的全局关系,具有更强的表现能力。但由于其高表现力原创 2024-04-26 18:13:14 · 1111 阅读 · 0 评论 -
GLM: 自回归空白填充的多任务预训练语言模型
当前,ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点,探索它在对话模型中的创新之处。原创 2023-11-27 10:49:25 · 782 阅读 · 0 评论 -
Transformer时间序列:PatchTST引领时间序列预测进
如果仅仅使用逐点计算的注意力机制,模型只能关注当前时间步的价格,而无法获取到前一天的价格信息。最近的一篇论文甚至表明,简单的线性模型在许多基准数据集上优于复杂的基于Transformer的预测模型(参见Zheng等人,2022)。在时间序列预测任务中,我们需要从过去的时间步中提取信息,以预测未来的时间步。该方法假设未来的数值可以通过过去的数值来估计,并且随着时间的推移,过去的数值对于预测的影响逐渐减弱。大多数基于 Transformer 的预测模型的研究工作都集中在构建新的机制,以简化原始的注意力机制。原创 2023-06-28 14:09:45 · 3959 阅读 · 1 评论 -
从Transformer到ViT:多模态编码器算法原理解析与实现
Transformer架构是一种使用自注意力机制的神经网络,最初是由谷歌提出的,被广泛应用于自然语言处理和图像处理任务中。它是一种基于注意力机制的深度学习模型,适用于序列到序列的学习任务,例如机器翻译、语音识别、文本摘要等。多模态Transformer前部分encoder算法是近年来在计算机视觉领域备受瞩目的研究方向之一。它的出现极大地推动了多模态信息的融合与处理,被广泛应用于图像、文本等多种数据类型的处理。原创 2023-03-17 17:26:00 · 2739 阅读 · 4 评论