深度学习
文章平均质量分 74
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
KAN or MLP: A Fairer Comparison
本文没有介绍一种新方法。相反,它对各种任务中的KAN和MLP模型进行了更公平、更全面的比较,包括机器学习、计算机视觉、音频处理、自然语言处理和符号公式表示。具体来说,我们控制参数和FLOP的数量,以比较KAN和MLP的性能。我们的主要观察是,除了符号公式表示任务外,MLP通常优于KAN。我们还对KAN进行了消融研究,发现其在符号公式表示方面的优势主要源于其B样条激活函数。当将B样条应用于MLP时,符号公式表示的性能显著提高,超过或匹配KAN。原创 2024-08-05 15:14:35 · 430 阅读 · 0 评论 -
VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time
我们介绍了VASA,这是一个在给定单个静态图像和语音音频剪辑的情况下,通过吸引人的视觉情感技能(VAS)生成逼真的会说话的人脸的框架。我们的首款模型VASA-1不仅能够产生与音频完美同步的嘴唇动作,还能够捕捉大量面部细微差别和自然的头部动作,有助于感知真实性和生动性。核心创新包括一个基于扩散的整体面部动力学和头部运动生成模型,该模型在面部潜在空间中工作,以及使用视频开发这种富有表现力和解开纠缠的面部潜在空间。通过广泛的实验,包括对一组新指标的评估,我们表明我们的方法在各个维度上都显著优于以前的方法。原创 2024-04-24 09:15:20 · 541 阅读 · 0 评论 -
Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
这项工作提出了Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,在任何情况下处理任何图像。为此,我们通过设计一个数据引擎来收集和自动注释大规模未标记数据(~62M),从而大大扩大了数据覆盖范围,从而能够减少泛化误差,从而扩大数据集的规模。我们研究了两种简单而有效的策略,这两种策略使数据扩展更有希望。首先,通过利用数据扩充工具创建了一个更具挑战性的优化目标。它迫使模型积极寻求额外的视觉知识并获得稳健的表示。原创 2024-01-31 10:36:05 · 561 阅读 · 0 评论 -
Transformers are Multi-State RNNs
与上一代最先进的NLP模型——递归神经网络(RNN)相比,transformer在概念上被认为是不同的。在这项工作中,我们证明了仅解码器transformer实际上可以被概念化为无限多状态RNN——一种具有无限隐藏状态大小的RNN变体。我们进一步证明,通过固定其隐藏状态的大小,可以将预训练的transformer转换为有限的多状态RNN。我们观察到,几种现有的transformer缓存压缩技术可以作为这样的转换策略,并引入了一种新的策略TOVA,与这些策略相比,它更简单。原创 2024-01-29 17:56:53 · 401 阅读 · 0 评论 -
Segment and Caption Anything
我们提出了一种方法来有效地为分割任意模型(SAM)配备生成区域字幕的能力。SAM表现出很强的可推广性来分割任何东西,而缺乏语义理解。通过引入一个轻量级的基于查询的特征混合器,我们将特定于区域的特征与语言模型的嵌入空间对齐,以便稍后生成字幕。由于可训练参数的数量很少(通常在数千万量级),因此计算成本更低,内存使用更少,通信带宽更少,从而实现快速且可扩展的训练。为了解决区域字幕数据的稀缺性问题,我们建议首先对我们的模型进行异议检测和分割任务的预训练。原创 2023-12-13 15:20:30 · 189 阅读 · 2 评论 -
Connecting Test Time Predictions to Training Patterns via Spotlights of Attention
通过梯度下降训练的神经网络(NN)中的线性层可以表示为键值记忆系统,该系统存储所有训练数据点和初始权重,并在整个训练体验中使用未规范化的点注意力产生输出。虽然自20世纪60年代以来,这在技术上就已经为人所知,但之前没有任何工作以这种形式有效地研究神经网络的操作,可能是由于令人望而却步的时间和空间复杂性以及不切实际的模型大小,所有这些都随着可能变得非常大的训练模式的数量而线性增长。然而,这种对偶公式提供了一种可能性,可以通过检查相应的注意力权重,直接可视化神经网络如何在测试时利用训练模式。原创 2023-09-05 09:13:45 · 55 阅读 · 0 评论 -
MEMORY-VQ: Compression for Tractable Internet-Scale Memory
检索增强是一种强大但昂贵的方法,可以使语言模型更了解世界。基于记忆的方法,如LUMEN,为检索到的段落预先计算token表示,以大大加快推理速度。然而,存储预计算的表示也会对内存产生更大的存储需求。我们提出了MEMORY-VQ,这是一种在不牺牲性能的情况下降低内存增强模型存储需求的新方法。我们的方法使用矢量量化变分自动编码器(VQ-VAE)来压缩token表示。我们将MEMORY-VQ应用于LUMEN模型以获得LUMEN-VQ,这是一种在KILT基准上实现16x压缩率且性能相当的存储器模型。原创 2023-09-05 09:00:39 · 134 阅读 · 0 评论 -
Introducing Language Guidance in Prompt-based Continual Learning
持续学习旨在学习一系列任务的单一模型,而无需访问以前任务的数据。该领域最大的挑战仍然是灾难性的遗忘:早期任务的可见类的性能损失。一些现有的方法依赖于昂贵的重放缓冲区来存储以前任务的数据块。这虽然很有前景,但当任务数量变大或由于隐私原因无法存储数据时,成本会变得很高。作为替代方案,已经提出了将任务信息存储在可学习提示池中的基于提示的方法。此提示池指示冻结图像编码器如何解决每个任务。虽然在这种设置下,模型在每个任务中都面临一组不相交的类,但我们认为这些类可以被编码到预先训练的语言编码器的相同嵌入空间中。原创 2023-09-01 10:43:15 · 840 阅读 · 0 评论 -
Data-centric Artificial Intelligence: A Survey
人工智能在几乎所有领域都产生了深远的影响。它取得巨大成功的一个重要因素是为构建机器学习模型提供了丰富而高质量的数据。最近,数据在人工智能中的作用被显著放大,催生了以数据为中心的人工智能概念。研究人员和从业者的注意力逐渐从推进模型设计转向提高数据的质量和数量。在这项调查中,我们讨论了以数据为中心的人工智能的必要性,然后全面看待了三个以数据为核心的通用目标(训练数据开发、推理数据开发和数据维护)和代表性方法。我们还从自动化和协作的角度组织现有文献,讨论挑战,并将各种任务的基准数据制成表格。原创 2023-08-30 15:56:57 · 265 阅读 · 0 评论 -
Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion
生成高质量的图像分割掩模是计算机视觉中的一个基本问题。最近的研究已经探索了大规模的监督训练,以实现对几乎任何图像风格的零样本分割,以及无监督训练,以便在没有密集注释的情况下实现分割。然而,构建一个能够在没有任何注释的情况下以零样本方式分割任何东西的模型仍然具有挑战性。在本文中,我们建议利用稳定扩散模型中的自注意层来实现这一目标,因为预先训练的稳定扩散模型已经学习了其注意层中对象的固有概念。具体来说,我们引入了一种简单而有效的迭代合并过程,该过程基于测量注意力图之间的KL散度,将它们合并为有效的分割掩码。原创 2023-08-30 14:36:46 · 292 阅读 · 0 评论 -
AN OVERVIEW OF LANGUAGE MODELS RECENT DEVELOPMENTS AND OUTLOOK
语言建模研究文本串上的概率分布。它是自然语言处理中最基本的任务之一。它已被广泛用于文本生成、语音识别、机器翻译等。传统的语言模型(CLM)旨在以因果方式预测语言序列的概率,而预训练语言模型(PLM)涵盖了更广泛的概念,可用于因果序列建模和下游应用的微调。PLM有自己的训练范式(通常是自我监督的),并作为现代NLP系统的基础模型。本文从语言单元、结构、训练方法、评估方法和应用五个方面介绍了CLM和PLM。此外,我们还讨论了CLM和PLM之间的关系,并阐明了预训练时代语言建模的未来方向。原创 2023-07-14 15:44:17 · 2351 阅读 · 0 评论 -
TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING
在下游任务上微调大型预训练语言模型已经成为NLP中事实上的学习范式。然而,传统的方法对预训练模型的所有参数进行微调,随着模型大小和任务数量的增长,这变得令人望而却步。最近的工作提出了各种参数有效的迁移学习方法,这些方法只微调少量(额外)参数以获得强大的性能。虽然有效,但人们对成功的关键因素以及各种方法之间的联系知之甚少。在本文中,我们分解了最先进的参数有效迁移学习方法的设计,并提出了一个统一的框架,在它们之间建立联系。原创 2023-06-30 15:31:18 · 438 阅读 · 0 评论