有意思的工作
文章平均质量分 93
Arachis_X
这个作者很懒,什么都没留下…
展开
-
【计算机视觉 Mamba】MambaOut: Do We Really Need Mamba for Vision?
Mamba 是一种具有类似 RNN 的状态空间模型(SSM)令牌混合器的架构,最近被引入以解决注意力机制的二次复杂性问题,随后被应用于视觉任务。然而,与卷积模型和基于注意力的模型相比,Mamba 在视觉方面的表现往往不尽如人意。Mamba 非常适合具有长序列和自回归特征的任务。对于视觉任务,由于图像分类不符合这两种特征,因此我们假设 Mamba 不需要用于该任务;检测和分割任务也不是自回归任务,但它们符合长序列特征,因此我们认为仍然值得探索 Mamba 在这些任务中的潜力。原创 2024-05-21 17:27:24 · 533 阅读 · 0 评论 -
【动画数据集 Sakuga-42M Dataset】Sakuga-42M Dataset: Scaling Up Cartoon Research
手绘卡通动画采用草图和平面色彩片段来营造运动的错觉。虽然 CLIP、SVD 和 Sora 等最新技术通过扩展大型模型和广泛的数据集,在理解和生成自然视频方面取得了令人印象深刻的成果,但它们对动画片却不那么有效。通过实证实验,我们认为这种无效性源于手绘卡通的明显偏差,这种偏差与自然视频的分布不同。我们能否利用缩放范式的成功来促进卡通研究?遗憾的是,到目前为止,还没有一个相当规模的卡通数据集可供探索。在这项研究中,我们提出了首个大规模卡通动画数据集–Sakuga-42M 数据集。原创 2024-05-21 17:15:48 · 515 阅读 · 0 评论 -
【故事扩散 图像视频生成】StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
对于最新的基于扩散的生成模型来说,在生成的一系列图像中保持内容的一致性,尤其是那些包含主题和复杂细节的图像,是一个巨大的挑战。在本文中,我们提出了一种新的自我注意力计算方法,称为 “一致的自我注意力”(Consistent Self-Attention),它能显著提高生成图像之间的一致性,并以zero-shot的方式增强普遍的基于扩散的预训练文本到图像模型。为了将我们的方法扩展到长距离视频生成,我们进一步引入了一个新颖的语义空间时间运动预测模块,名为 “语义运动预测器”。原创 2024-05-08 22:31:37 · 897 阅读 · 0 评论 -
【Kolmogorov-Arnold网络 替代多层感知机MLPs】KAN: Kolmogorov-Arnold Networks
受Kolmogorov-Arnold 表示定理的启发,我们提出了Kolmogorov-Arnold网络(KANs)作为多层感知器(MLPs)的替代品。MLP 在节点(“神经元”)上有固定的激活函数,而 KAN 在边缘(“权重”)上有可学习的激活函数。KAN 完全没有线性权重–每个权重参数都由参数化为样条曲线的单变量函数代替。我们的研究表明,这一看似简单的改变使得 KAN 在准确性和可解释性方面都优于 MLP。原创 2024-05-08 22:11:46 · 871 阅读 · 0 评论 -
【文本生成图像 风格保护】InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation
基于无调谐扩散的模型已在图像个性化和定制领域展现出巨大潜力。然而,尽管取得了显著进展,目前的模型在生成风格一致的图像时仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,它包含多种元素,如颜色、材料、氛围、设计和结构等等。其次,基于反转的方法容易造成风格退化,往往会导致精细细节的丢失。最后,基于适配器的方法经常需要对每张参考图像进行细致的权重调整,以实现风格强度和文本可控性之间的平衡。在本文中,我们首先研究了几个引人注目但却经常被忽视的问题。原创 2024-04-10 17:39:16 · 723 阅读 · 0 评论 -
【自回归视觉生成(VAR)】Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
视觉自回归模型(VAR)将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 “下一分辨率预测”,有别于标准的栅格扫描 “下一标记预测”。我们提出了**视觉自回归建模(VAR)**这一新一代范式,它将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 “下一分辨率预测”,有别于标准的栅格扫描 “下一标记预测”。这种简单、直观的方法使自回归(AR)变换器能够快速学习视觉分布,并具有良好的泛化能力:VAR 首次使 AR 模型在图像生成方面超越了扩散变换器。原创 2024-04-10 17:27:09 · 1259 阅读 · 0 评论 -
【单步扩散 图像翻译】One-Step Image Translation with Text-to-Image Models
在这项工作中,我们解决了现有条件扩散模型迭代去噪过程导致的推理速度慢以及模型微调对配对数据的依赖。为了解决这些问题,我们引入了一种通用方法,通过对抗学习目标将单步扩散模型适应新任务和新领域。具体来说,我们将 vanilla 潜在扩散模型的各种模块整合到一个具有较小可训练权重的端到端生成器网络中,从而增强了其保持输入图像结构的能力,同时减少了过拟合。我们证明,在非配对环境下,我们的模型在各种场景转换任务中的表现优于现有的基于 GAN 和基于扩散的方法,如昼夜转换和添加/移除雾、雪、雨等天气效果。原创 2024-03-25 16:01:29 · 969 阅读 · 0 评论 -
【Grokking 小数据集 过拟合 泛化分析】Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
在本文中,我们提议在通过算法生成的小型数据集上研究神经网络的泛化。在这种情况下,有关数据效率、记忆、泛化和学习速度等问题都可以得到详细研究。在某些情况下,我们发现神经网络可以通过 "摸索 "数据中的模式来学习,从而将泛化性能从随机概率水平提高到完美泛化水平,而且这种泛化性能的提高可以远远超过过度拟合的程度。我们还研究了泛化与数据集大小的函数关系,发现较小的数据集需要越来越多的泛化优化。原创 2024-03-20 22:41:45 · 925 阅读 · 0 评论 -
【区域语义 交互 图像生成】StreamMultiDiffusion: Real-Time Interactive Generation+Region-Based Semantic Control
扩散模型在文本到图像合成方面的巨大成功,使其有望成为下一代图像生成和编辑终端用户应用的候选模型。以前的工作主要集中在通过减少推理时间来提高扩散模型的可用性,或通过允许新的细粒度控制(如基于区域的文本提示)来提高用户交互性。然而,我们根据经验发现,整合这两个工作分支并非易事,从而限制了扩散模型的潜力。为了解决这种不兼容性,我们提出了 StreamMultiDiffusion,这是第一个基于区域的实时文本到图像生成框架。通过稳定快速推理技术并将模型重组为新提出的多提示流批处理架构。原创 2024-03-19 21:20:34 · 713 阅读 · 0 评论 -
【Prompts + 图像生成视频】Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
尽管图像到视频生成技术近年来不断进步,但对更好的可控性和局部动画的探索却较少。这两个问题阻碍了当前 I2V 工具的实际应用:大多数现有的图像到视频生成方法都不具备局部感知能力,往往会移动整个场景。然而,人类艺术家可能需要控制不同物体或区域的移动。此外,目前的 I2V 方法不仅需要用户描述目标运动,还需要提供冗余的帧内容详细描述。在本文中,我们提出了一个名为 ""的实用框架,通过用户简单的点击(指定要移动的内容)和简短的运动提示(指定如何移动)来实现图像动画。在技术上,我们提出了。原创 2024-03-19 18:17:22 · 1481 阅读 · 0 评论 -
【文本2视频+姿势跟随 数字人】Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
生成文字可编辑、姿势可控制的人物视频是创造各种数字人类的迫切需求。然而,这项任务一直受限于缺乏以视频与姿势字幕配对为特征的综合数据集和视频先验生成模型。在这项工作中,我们设计了一种新颖的两阶段训练方案,可以利用容易获得的数据集(即图像姿势配对和无姿势视频)和预训练的文本到图像(T2I)模型来获得姿势可控的人物视频。具体来说,在第一阶段,仅使用关键点-图像对生成可控的文本-图像。我们学习一个零初始化卷积编码器来编码姿势信息。原创 2024-03-13 21:43:56 · 1332 阅读 · 0 评论 -
【跨模态转换】音乐生成舞蹈/舞蹈生成音乐
代码地址(无)2020.9代码地址(无)2020.2 Computer Vision and Pattern Recognition代码地址(无)2019.11 NeurIPS 2019。原创 2024-03-13 21:29:48 · 333 阅读 · 0 评论 -
【动作生成】MoMask: Generative Masked Modeling of 3D Human Motions
我们介绍了用于文本驱动三维人体运动生成的新型遮罩建模框架 MoMask。MoMask 采用分层量化方案,将人体运动表示为具有高保真细节的多层离散运动标记。从底层开始,通过矢量量化获得运动标记序列,然后推导出递增阶次的残余标记,并将其存储在层次结构的后续层中。随后是两个不同的双向变换器。对于基础层的运动标记,指定了一个屏蔽变换器来预测随机屏蔽的运动标记,并以训练阶段的文本输入为条件。在生成(即推理)阶段,从一个空序列开始,我们的屏蔽变换器会反复填补缺失的标记;原创 2024-03-13 21:03:33 · 623 阅读 · 0 评论 -
【人体动作生成-综述】Human Motion Generation: A Survey
人体运动生成旨在生成自然的人体姿势序列,在现实世界的应用中显示出巨大的潜力。近来,运动数据采集技术和生成方法取得了长足进步,为人类运动生成技术的发展奠定了基础。该领域的大部分研究都集中在根据条件信号(如文本、音频和场景背景)生成人体运动。虽然近年来取得了重大进展,但由于人体运动的复杂性及其与条件信号之间的隐含关系,这项任务仍面临挑战。在本调查报告中,我们对人类运动生成进行了全面的文献综述,据我们所知,这在该领域尚属首次。我们首先介绍了人体运动和生成模型的背景,原创 2024-03-13 20:50:11 · 1041 阅读 · 0 评论 -
【视觉语言模型】DeepSeek-VL: Towards Real-World Vision-Language Understanding
我们推出的是一个开源的视觉语言(VL)模型,专为真实世界的视觉和语言理解应用而设计。我们的方法围绕三个关键维度展开:我们努力确保数据的多样性和可扩展性,并广泛涵盖现实世界的各种场景,包括网页截图、PDF、OCR、图表和基于知识的内容,旨在全面呈现实际语境。此外,我们还根据真实用户场景创建了用例分类法,并据此构建了指令调整数据集。利用该数据集进行的微调大大改善了模型在实际应用中的用户体验。原创 2024-03-13 12:45:10 · 1025 阅读 · 0 评论 -
【LLM+三维场景】3D-GPT: Procedural 3D MODELING WITH LARGE LANGUAGE MODELS
在追求高效的自动内容创建过程中,利用可修改参数和基于规则的系统进行程序生成是一种很有前途的方法。然而,由于其复杂性,需要对规则、算法和参数有深入的了解,这可能是一项艰巨的工作。为了减少工作量,我们引入了 3D-GPT 框架,该框架利用大型语言模型(LLM)进行指令驱动的 3D 建模。3D-GPT 将大型语言模型定位为熟练的问题解决者,将程序化三维建模任务分解为可访问的片段,并为每个任务指定合适的agent。任务派遣agent;概念化agent;建模agent。原创 2024-03-10 14:27:03 · 1003 阅读 · 0 评论 -
【提示+图像编辑】Prompt-to-Prompt Image Editing with Cross Attention Control
最近的大规模文本驱动合成模型因其能够根据给定的文本提示生成高度多样化的图像而备受关注。这种基于文本的合成方法对习惯于口头描述自己意图的人类特别有吸引力。因此,将文本驱动的图像合成扩展到文本驱动的图像编辑也就顺理成章了。对于这些生成模型来说,编辑是一项挑战,因为编辑技术的一个固有属性是保留大部分原始图像,而在基于文本的模型中,即使对文本提示稍作修改,也往往会导致完全不同的结果。最先进的方法通过要求用户提供空间遮罩来定位编辑,从而忽略了遮罩区域内的原始结构和内容,从而缓解了这一问题。原创 2024-03-10 14:16:02 · 670 阅读 · 0 评论 -
【多模态智能体+游戏】Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case
尽管在特定任务和场景中取得了成功,但现有的基础agent在大型模型(LMs)和先进工具的帮助下,仍然无法推广到不同的场景中,这主要是由于不同场景中的观察和操作存在巨大差异。在这项工作中,我们提出了通用计算机控制(GCC)设置:建立基础agent,只需将计算机屏幕图像(可能还有音频)作为输入,并将键盘和鼠标操作作为输出,就能掌握任何计算机任务,类似于人机交互。实现 GCC 所面临的主要挑战有决策的多模态观察;键盘和鼠标的精确控制要求;长期记忆和推理的需要;高效探索和自我完善的能力。原创 2024-03-09 21:02:11 · 975 阅读 · 0 评论 -
【LLM+GUI智能】UFO: A UI-Focused Agent for Windows OS Interaction
我们介绍的 UFO 是一种创新的以用户界面为中心的智能体,它利用 GPT-Vision 的功能,为 Windows 操作系统上的应用程序量身定制,以满足用户的要求。UFO 采用双智能体框架,对图形用户界面(GUI)和 Windows 应用程序的控制信息进行细致的观察和分析。这使智能体能够在单个应用程序内和跨应用程序之间无缝导航和操作,以满足用户的要求,即使在跨多个应用程序的情况下也是如此。该框架包含一个控制交互模块,便于在没有人工干预的情况下进行操作,并实现全自动执行。因此,原创 2024-03-09 20:42:38 · 952 阅读 · 0 评论 -
【图像三维重建】TripoSR: Fast 3D Object Reconstruction from a Single Image
论文地址代码地址论文分享:《TripoSR: Fast 3D Object Reconstruction from a Single Image》原创 2024-03-09 17:48:55 · 378 阅读 · 0 评论 -
【虚拟换衣】OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on
看着比较有意思的工作。原创 2024-03-09 17:37:29 · 387 阅读 · 0 评论