大模型
文章平均质量分 95
请站在我身后
写点东西,记录看的论文和代码,从事算法,想看未来
展开
-
读论文《3DTOPIA-XL: SCALING HIGH-QUALITY 3D ASSET GENERATION VIA PRIMITIVE DIFFUSION》
给定一个纹理化的3D网格,我们将其3D形状建模为符号距离函数(SDF),并且给定形状表面的邻域,我们定义了空间变化的颜色函数和材料函数。所有形状、纹理和材料信息可以由体积函数参数化。PrimX表示法的目标是近似这个体积函数,通过一组分布在网格表面的体积原始图元来实现。每个原始图元是一个小体素,由其3D位置、全局缩放因子和对应的空间变化特征负载参数化。这些原始图元的加权组合用于近似纹理网格。PrimX:提出了一种新的3D表示方法,将3D形状、纹理和材料表示为紧凑的N×D张量。原始图元压缩。原创 2024-09-30 15:33:31 · 1168 阅读 · 0 评论 -
读论文《STORYMAKER: TOWARDS HOLISTIC CONSISTENT CHARACTERS IN TEXT-TO-IMAGE GENERATION》
StoryMaker 模型旨在解决现有文本到图像生成方法中缺乏多角色场景全面一致性的问题。该模型不仅保持了面部特征的一致性,还关注了服装、发型和身体的一致性,从而有助于通过一系列图像来构建故事。通过使用位置感知感知重采样器(Positional-aware Perceiver Resampler,PPR)整合面部身份信息和裁剪后的角色图像,StoryMaker 能够生成具有独特角色特征的图像。此外,为了防止多个角色和背景相互干扰,原创 2024-09-29 16:32:46 · 1065 阅读 · 0 评论 -
读论文《OmniGen: Unified Image Generation》
大型语言模型 (LLM) 的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单个框架内处理各种任务的统一模型在很大程度上仍未得到探索。在这项工作中,我们介绍了 OmniGen,这是一种用于统一图像生成的新扩散模型。与流行的扩散模型(例如 Stable Diffusion)不同,OmniGen 不再需要 ControlNet 或 IP 适配器等额外模块来处理各种控制条件。原创 2024-09-25 11:07:11 · 807 阅读 · 0 评论 -
读论文《Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models》
尽管图像到3D生成领域取得了巨大进展,现有方法在生成具有高分辨率纹理细节的多视角一致图像方面仍然存在挑战,尤其是在缺乏3D感知的2D扩散模型范式中。本文提出了一种名为Hi3D的高分辨率图像到3D生成框架,该框架首先从输入图像生成多视角一致的图像,然后从这些生成的图像重建高保真的3D网格。Hi3D通过利用预训练的视频扩散模型,将单图像到多视角图像的转换重新定义为3D感知的序列图像生成(即轨道视频生成)。这种方法深入挖掘了视频扩散模型中的时间一致性知识,这些知识可以很好地推广到3D生成中的几何一致性。原创 2024-09-20 17:59:39 · 1077 阅读 · 0 评论 -
读论文-使用潜在扩散模型进行高分辨率图像合成
论文名称:High-Resolution Image Synthesis with Latent Diffusion Models潜在扩散模型(LDMs)通过在预训练的自动编码器的潜在空间中应用扩散模型,实现了高分辨率图像合成。这种方法的关键是在像素空间和潜在空间之间找到一个平衡点,既能减少计算复杂性,又能保留足够的细节信息。原创 2024-09-20 17:35:57 · 795 阅读 · 0 评论 -
Mini-Omni:语言模型可以在流中听、说和思考
读论文《Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming》目前比较火的一篇论文,分享给大家。原创 2024-09-12 15:09:17 · 1239 阅读 · 0 评论 -
读论文《Sapiens: Foundation for Human Vision Models》
Sapiens 是由 Rawal Khirodkar 等人开发的一系列模型,旨在处理四个关键的以人为中心的视觉任务:2D 姿态估计、身体部位分割、深度预测和表面法线预测。这些任务对于理解图像中的人体和生成逼真的3D 人类模型至关重要。Sapiens 模型通过在大规模的野外人类图像数据集上进行自监督预训练,然后针对特定任务进行微调,以实现高性能。Sapiens 模型针对四项人工任务进行了微调 - 2D 姿势估计、身体部位分割、深度预测和法线预测。我们的模型适用于各种野外面部、上半身、全身和多人图像。原创 2024-09-11 17:48:16 · 798 阅读 · 0 评论 -
自称超越Transformer的新一代大模型RWKV是什么
自 Vaswani 等人于 2017 年首次提出 Attention Is All You Need 之后,基于 transformer 的强大的模型一直在不断地涌现,它们在 NLP 相关任务上的表现远远超过基于 RNN (Recurrent Neural Networks, 递归神经网络) 的 SoTA 模型,甚至多数认为 RNN 已死。而本文将介绍一个集 RNN 和 transformer 两者的优势于一身的全新网络架构 –RWKV!原创 2024-09-06 17:28:05 · 820 阅读 · 0 评论