
AIGC/视频生成/StableDiffusion
文章平均质量分 92
AIGC/视频生成、SORA、StableDiffusion
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
论文地址:https://arxiv.org/abs/2410.06940项目地址:https://sihyun.me/REPA/在生成高维的视觉数据方面,基于去噪方法(如扩散模型)或基于流的生成模型,已经成为了一种可扩展的途径,并在有挑战性的的零样本文生图/文生视频任务上取得了非常成功的结果。最近的研究表明,生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示,但这些表示的质量目前仍落后于自监督学习方法,例如DINOv2。原创 2024-10-30 10:52:38 · 831 阅读 · 0 评论 -
Stable Diffusion 3 论文及源码概览
流匹配是一种定义图像生成目标的方法,它可以兼容当前扩散模型的训练目标。流匹配中一个有代表性的工作是整流 (rectified flow),它也正是 SD3 用到的训练目标。我们会在本文中通过简单的可视化示例学习流匹配的思想。由于 SD3 最后用了整流模型来建模图像生成,所以文章是从一种称为流匹配 (Flow Matching) 的角度而非更常见的扩散模型的角度来介绍各种训练目标。原创 2024-07-14 12:54:51 · 2435 阅读 · 1 评论 -
TF-ICON:基于扩散的无训练跨域图像合成 (ICCV 2023)
在本文中,我们提出了 TF-ICON,这是一种新颖的无需训练的图像合成框架,它利用文本驱动的扩散模型的强大功能进行跨域图像引导合成。当前基于扩散的方法通常涉及昂贵的基于实例的优化或在定制数据集上对预训练模型进行微调,这可能会破坏其丰富的先验知识。相比之下,TF-ICON 可以利用现成的扩散模型执行。此外,我们引入了不包含任何信息的特殊提示,以促进文本驱动的扩散模型准确地将真实图像转换为潜在表示,从而形成合成的基础。我们的实验表明,配备出色提示的稳定扩散在。我们的工作是站在巨人的肩膀上。原创 2024-09-27 13:56:35 · 1146 阅读 · 0 评论 -
[多模态大模型面试]InstructBLIP
为了处理训练数据集中数量众多和大小差异显著的问题,InstructBLIP采用了平衡采样策略,根据数据集大小的平方根比例来选择数据样本,以确保模型不会对较小的数据集过拟合,也不会对较大的数据集拟合不足。:InstructBLIP在特定下游任务上的微调性能也得到了验证,与BLIP-2相比,InstructBLIP提供了更好的权重初始化模型,并在多个数据集上实现了SOTA性能。根据BLIP-2的论文,Q-Former已经分成两个阶段进行了预训练,通过预训练,它学会了提取可以被LLM消化的文本对齐的视觉特征。原创 2024-05-09 08:31:59 · 1784 阅读 · 0 评论 -
多模态面试问答
ViT (Vision Transformer) 是一种纯 Transformer 架构,直接应用于图像分类任务,不依赖于卷积神经网络。原创 2024-05-08 18:03:22 · 708 阅读 · 0 评论 -
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
从最低分辨率(比如1×1)的token map开始,预测下一级分辨率(比如4×4)的完整token map,并以此类推,直到生成最高分辨率的token map(比如256×256)。第二阶段,主要是对VAR Transformer的训练,通过预测更高分辨率的图像,来进一步优化模型。另外,在每个尺度内,VAR是并行地预测所有位置的token,而不是线性逐个预测,这大大提高了生成效率。研究人员指出,采用这样的方法,VAR更符合人类视觉感知从整体到局部的特点,并能保留图像的空间局部性。原创 2024-04-26 10:33:36 · 968 阅读 · 0 评论 -
通用图大模型HiGPT:一己之力建模任何图结构关系!来自港大数据智能实验室&百度 GraphGPT原班团队 黄超
具体地,作者结合了四种常见的提示技术,即Chain-of-Thought,Tree-of-Thought,PanelGPT和Generated Knowledge Prompting,通过ChatGPT模拟正确的推理结果,最后将多样的推理结果作为下游任务指令微调的训练数据,做到不增加监督信号的情况下增加(增强)了训练数据规模。),(ii)区分相同类型的图tokens直接的对应关系(同质关系感知),以及(iii)在下游任务中有效利用异质关系感知和同质关系感知能力。(异质图:即结点和边的类型更多样。原创 2024-04-07 15:56:56 · 891 阅读 · 0 评论 -
知识图谱增强RAG: 用外部知识提升LLM
知识图谱(KGs)是关于世界的结构化的事实知识存储库,以相互连接的概念和实体表示。随着知识图谱与大型语言模型的融合,未来的可能性令人兴奋。源数据中的元数据存在可以增强RAG的作用,因为它可以为模型提供有关内容的额外上下文,从而帮助模型生成更相关和有信息量的响应。当我们在2022年初写关于知识图谱智能的文章时,我们的目标是突出展示使用知识图谱分析和机器学习从结构化数据中推导出关系和连接的技术。此外,还会遍历更广泛的知识图谱结构,以收集可能相关的实体和关系,这些实体和关系在获取的节点周围仅几次跳转内。原创 2024-04-06 19:55:02 · 1441 阅读 · 0 评论 -
陈巍:Sora大模型技术精要万字详解(下)—原理、关键技术、模型架构详解与应用
在训练后期,Sora团队将DALL·E 3中的字幕生成技术应用到了视频生成领域,并训练了一个具备高度描述性的视频标注(Video Captioning)模型,使用该模型为视频训练数据生成了高质量文本标注(相当于Prompt),再将视频和高质量标注作为输入数据集对进行训练。Sora甚至可以生成数字教师,代替人类教师的重复工作,让教师更侧重于知识的沟通和学生的人格培养。当模型的计算规模逐渐增大,辅助的标注信息覆盖到物理世界的关键特征和数字,模型本身会建立相应的物理特征与数字关联,形成类似经验规律的认知。原创 2024-04-04 20:47:58 · 1133 阅读 · 0 评论 -
国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动 - 带算法解释stable Transformer
具体来说,Etna模型在一个大型视频数据集上进行了充分训练,过程采用了先进的深度学习技术策略,包括LDS大规模训练、复杂HPO超参数优化和DPO微调,确保了模型的强大性能和生成能力。无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟,还是冲浪者、划潜艇的人、滑雪的人,都做到了细节高清、动作连贯,甚至达到了3840x2160的超高分辨率。而作为背后工具的Etna,不仅在视频长度上达到了破纪录的15秒,并且还实现了60 FPS的超高帧率,大大提高了视频的流畅性和观看体验。许多业内人士公认,短视频就是在线内容的未来。原创 2024-03-12 16:43:57 · 634 阅读 · 0 评论 -
去魅Sora: OpenAI 鲜肉小组的小试牛刀
不知道这是不是Tim的毕业设计,毕业后就去了Google, Marc Levoy带领的计算摄影组,做了Unprocessing算法实现RGB -> raw数据的合成和降噪算法,后来又跟Tianfan Xue学长、Jon Barron大神等人参与了Pixel的超级夜景算法,这个算法非常牛逼,后来我们基于Deep Learning做了个更好的,也去投SIGGraph,被审稿人拍的很惨。当然,作为搞学术的人,看到这样好的实验结果,我们想的是如何复现,也就是复刻一个 Sora 出来。原创 2024-03-05 18:25:22 · 818 阅读 · 0 评论 -
Sora技术解析报告
包包闭关修炼北京论文标题:Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models论文链接:https://arxiv.org/pdf/2402.17177.pdf。原创 2024-03-03 19:32:52 · 621 阅读 · 0 评论 -
粤港澳大赛 第二季 看视频说话
人们很容易就能在反直觉视频——幽默的,创意的,充满视觉效果的视频中获得愉悦感,这吸引力不仅来自于视频对人类的视觉感官刺激,更来自于人类与生俱来的理解和发现快乐的能力——能够理解并在出乎意料和反直觉的时刻找到乐趣。尽管如今的计算机视觉大模型取得了重大进展,它们仍然无法很好地理解这类视频。可以参考下图的例子,一个男人在和朋友们一起吃饭并专注地玩手机。突然他的一个同伴挤了大量的番茄酱,而这些番茄酱并没有落到薯条上,而是溅到了该男子的脸上,他震惊的表情和满是番茄酱的脸引人发笑。原创 2023-09-07 11:27:29 · 139 阅读 · 0 评论 -
Stable Diffusion高级教程 - 微调模型
这节我们专门介绍 Stable Diffusion 里面各个微调模型。原创 2023-09-07 00:01:02 · 1675 阅读 · 0 评论 -
Stable Diffusion的微调方案:
2、对于图片来说,它分别被加噪n步与n-1步,生成两张噪声图 �� 与 ��−1 , �� 被输入到扩散模型中,且以文字做为条件引导,通过解码器(VAE)生成一张图片 ����。后半部分,是狗图的损失函数:结构和前者一致,通过加入 � 来控制影响权重,论文中表示,当 �=1 时,3-5张图片在1000次的训练后,仍旧获得不错的泛化结果。是原图, (���+���) 是加噪后的图, ��^ 是扩散模型的去噪方法,它接收噪声图和文字,生成去噪后的图。下面是DreamBooth的整体损失函数,看不懂可以忽略,原创 2023-08-27 16:16:10 · 268 阅读 · 0 评论 -
打造AI虚拟数字人,Stable Diffusion+Sadtalker教程
恭喜你,你已经完成了使用Stable Diffusion和Sadtalker结合起来,实现从文本到视频的生成的教程。你可以在output文件夹中找到你生成的视频,并用任何视频播放器观看它。你也可以尝试用不同的文本描述和音频来生成不同的视频。希望你能享受这个有趣的创作过程,并发挥你的想象力和创造力。原创 2023-07-24 16:16:40 · 1423 阅读 · 1 评论 -
Fay数字人助理版是fay开源项目的重要分支,专注于构建智能数字助理的开源解决方案。它提供了灵活的模块化设计,使开发人员能够定制和组合各种功能模块,包括情绪分析、NLP处理、语音合成和语音输出等。
它提供了灵活的模块化设计,使开发人员能够定制和组合各种功能模块,包括情绪分析、NLP处理、语音合成和语音输出等。Fay数字人助理版为开发人员提供了强大的工具和资源,用于构建智能、个性化和多功能的数字助理应用。通过该版本,开发人员可以轻松创建适用于各种场景和领域的数字人助理,为用户提供智能化的语音交互和个性化服务。在交互中,数字人能感受用户的情感,并作出反应。最直的体现,就是语气的变化,如 开心/伤心/生气 等。助理版Fay控制器使用:语音沟通,语音和文字回复;数字人属性,与用户交互中能做出相应的响应。原创 2023-07-24 15:00:13 · 2469 阅读 · 0 评论 -
Language Is Not All You Need:跨模态的大语言模型
向人工通用智能迈进的关键步骤在于语言、多模态感知、行为以及世界模型的大融合。在这项研究中,我们引入了KOSMOS-1,一种可以感知通用模态、在上下文中学习(即 few-shot 学习)并遵循指令(即 zero-shot 学习)的多模态大型语言模型(MLLM)。具体来说,我们从头开始训练 KOSMOS-1,在网页规模的多模态语料库上进行训练,包括任意交错的文本和图像,图像-标题对,以及文本数据。原创 2023-07-15 14:48:46 · 266 阅读 · 0 评论 -
Language Is Not All You Need:跨模态的大语言模型
向人工通用智能迈进的关键步骤在于语言、多模态感知、行为以及世界模型的大融合。在这项研究中,我们引入了KOSMOS-1,一种可以感知通用模态、在上下文中学习(即 few-shot 学习)并遵循指令(即 zero-shot 学习)的多模态大型语言模型(MLLM)。具体来说,我们从头开始训练 KOSMOS-1,在网页规模的多模态语料库上进行训练,包括任意交错的文本和图像,图像-标题对,以及文本数据。原创 2023-07-15 10:22:43 · 303 阅读 · 0 评论 -
清华glm团队新作:多模态的VisualGLM-6b
模型结构和设计思路(来源文末的丁铭博士的分享PPT)随手测试了一张图,效果还是很不错的。随手体验了下,感觉还不错当前该开源方案由于数据量、模型参数量、是否用户意图对齐等限制,方案存在的一些局限性。图像描述事实性/模型幻觉问题。在生成图像长描述的时候,距离图像较远时,语言模型的将占主导,有一定可能根据上下文生成并不存在于图像的内容。属性错配问题。在多物体的场景中,部分物体的某些属性,经常被错误安插到其他物体上。分辨率问题。本项目使用了224*224的分辨率,也是视觉模型中最为常用的尺寸;原创 2023-07-15 10:17:40 · 1033 阅读 · 1 评论 -
LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归
LeCun世界模型。原创 2023-06-14 15:59:10 · 427 阅读 · 0 评论 -
神器CLIP:连接文本和图像,打造可迁移的视觉模型
2021年见证了vision transformer的大爆发,随着谷歌提出ViT之后,一大批的vision transformer的工作席卷计算机视觉任务。除了vision transformer,另外一个对计算机视觉影响比较大的工作就是Open AI在2021年1月份发布的DALL-E和CLIP,这两个都属于结合图像和文本的多模态模型,其中DALL-E是基于文本来生成模型的模型,而CLIP是用文本作为监督信号来训练可迁移的视觉模型,这两个工作也像ViT一样带动了一波新的研究高潮。这篇文章将首先介绍CLIP原创 2023-06-14 04:35:26 · 2974 阅读 · 0 评论