AI生成未来
码龄1年
关注
提问 私信
  • 博客:254,027
    视频:9,347
    263,374
    总访问量
  • 207
    原创
  • 6,750
    排名
  • 2,605
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2023-11-25
博客简介:

AIGCer的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,879
    当月
    56
个人成就
  • 获得3,827次点赞
  • 内容获得24次评论
  • 获得3,212次收藏
创作历程
  • 176篇
    2024年
  • 31篇
    2023年
成就勋章
TA的专栏
  • 图像编辑
    10篇
  • 3d生成
    9篇
  • Transformer
    1篇
  • 自回归
    2篇
  • 图像生成
    27篇
  • 视频生成
    11篇
  • LLM
    8篇
  • 具身智能
    3篇
  • 多模态
    4篇
  • AIGC
    148篇
  • 图像分割
    1篇
  • 里程碑
    1篇
  • 图像修复
    1篇
  • 阴影生成
    1篇
  • 3D场景
    1篇
  • 虚拟试衣
    1篇
  • ECCV
    2篇
  • 图像视频生成
    1篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

180人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

抛弃UNet,首个基于DiT的图像编辑框架!DiT4Edit:多尺寸编辑质量更优 | 北大&港科大

解决的问题现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足。相比之下,Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖关系,但目前在图像编辑领域的应用仍较少。提出的方案本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法来获取反演隐变量,与传统UNet框架常用的DDIM反演算法相比,显著减少了迭代步数。
原创
发布博客 昨天 08:10 ·
388 阅读 ·
4 点赞 ·
0 评论 ·
7 收藏

生成任意3D和4D场景!GenXD:通用3D-4D联合生成框架 | 新加坡国立&微软

现有的2D视觉生成已取得显著进展,但3D和4D生成在实际应用中仍然面临挑战,主要由于缺乏大规模4D数据和有效的模型设计。
原创
发布博客 昨天 08:07 ·
766 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

首次超越扩散模型和非自回归Transformer模型!字节开源RAR:自回归生成最新SOTA!

解决的问题RAR(随机自回归建模)旨在提升图像生成任务的表现,同时保持与语言建模框架的完全兼容性。提出的方案RAR采用了一种简单的方法,通过标准的自回归训练过程并结合下一个 token 预测目标,将输入序列随机打乱到不同的分解顺序。在训练过程中,使用概率 r 将输入序列的排列顺序随机化,其中 r 从 1 开始并逐渐线性衰减至 0,以让模型学习所有分解顺序的期望似然值。应用的技术。
原创
发布博客 前天 00:33 ·
710 阅读 ·
30 点赞 ·
0 评论 ·
17 收藏

无需昂贵标注!大幅提升SDXL和SD3-Medium效果!文生图偏好优化新宠来了 | TUM&Snap

解决的问题传统的直接偏好优化(DPO)方法依赖大量人工标注的数据集来对文本生成图像(T2I)模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求。提出的方案本研究提出一种完全合成的数据集收集方法,用于DPO训练。通过预训练的奖励函数生成成对图像的偏好数据,替代人工标注,极大地提升数据集的收集效率。同时,引入RankDPO方法,通过排名反馈增强DPO训练,提升模型的偏好学习效果。应用的技术。
原创
发布博客 2024.11.01 ·
691 阅读 ·
12 点赞 ·
0 评论 ·
8 收藏

定制化视频生成新模范!零样本主体驱动,精确运动控制!复旦&阿里等发布DreamVideo-2

现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果。
原创
发布博客 2024.11.01 ·
1249 阅读 ·
25 点赞 ·
0 评论 ·
8 收藏

Scaling laws在视觉自回归模型上失效了?谷歌联合MIT发布Fluid:文生图质量刷新纪录!

本文探讨了在视觉领域,特别是文本生成图像任务中,扩大自回归模型并不像在大语言模型中那样有益的现象。具体关注了以下两个关键问题:模型使用离散还是连续的token。模型在生成token时,使用随机顺序还是固定顺序(基于BERT或GPT的Transformer架构)。通过实验对比不同模型,研究模型在使用离散或连续token,以及在随机顺序或光栅顺序生成时的表现。基于实验结果,提出了一种新的模型——Fluid,该模型使用随机顺序的自回归生成方式,并基于连续token进行训练。使用BERT和GPT。
原创
发布博客 2024.10.25 ·
753 阅读 ·
7 点赞 ·
0 评论 ·
18 收藏

灵活精确可控编辑!Dice:首个离散扩散模型精确反演方法!

解决的问题离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。提出的方案提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。应用的技术。
原创
发布博客 2024.10.25 ·
961 阅读 ·
16 点赞 ·
0 评论 ·
19 收藏

2万字长文看透基于扩散模型的图像编辑理论和实践!(中科院&南科大&苹果&Adobe)

如何利用去噪扩散模型进行高质量的图像生成和编辑。系统地分类和评估扩散模型在图像编辑中的应用。
原创
发布博客 2024.10.24 ·
715 阅读 ·
15 点赞 ·
0 评论 ·
23 收藏

统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务

解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。
原创
发布博客 2024.10.24 ·
881 阅读 ·
6 点赞 ·
0 评论 ·
18 收藏

视频生成和具身智能强强联合!谷歌&卡内基梅隆&斯坦福发布Gen2Act:泛化超棒!

机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。
原创
发布博客 2024.10.22 ·
743 阅读 ·
35 点赞 ·
0 评论 ·
10 收藏

阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源!

值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。尤其值得注意的是,当文本提示中的对象与预设轨迹明显不太可能匹配时,Tora 动态地调整物体的局部运动,确保其整体运动仍然符合自然规律,并保持视觉的一致性。
原创
发布博客 2024.10.22 ·
366 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

苹果重磅开源俄罗斯套娃扩散模型!MDM:多任务高分辨率生成又快又好!

生成高质量图像和视频的扩散模型面临高维度学习的计算和优化挑战,尤其是在处理高分辨率图像时。
原创
发布博客 2024.10.21 ·
325 阅读 ·
4 点赞 ·
0 评论 ·
1 收藏

矛盾之争,AI合成数据可以骗过大模型吗?中山大学联合上海AI Lab提出合成检测基准LOKI

引入了LOKI基准,以全面评估LMMs在区分合成数据上的表现。全面模态评估。收集了近期热门合成模型生成的高质量多模态数据,涵盖视频,图像,3D数据,文本,音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类,包括有专业的卫星,医学等图像,哲学,文言文等文本作品,环境音,音乐等音频。多层次标注。基准包括了生成/真实标签,可用于判断题,多选题等基础问题设置。还包含了细粒度异常注释,可用于原因解释等探究LMMs在可解释合成数据检测方面的题目。多模态合成数据评测框架。
原创
发布博客 2024.10.20 ·
1062 阅读 ·
12 点赞 ·
0 评论 ·
19 收藏

“左脚踩右脚”提升文生图模型综合能力!清北牛津普林斯顿联合发布IterComp

现有的扩散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成组合性图像时各有所长,有的擅长属性绑定,有的则在空间关系上表现更好。然而,这些模型无法全面解决组合性生成的多方面需求,缺乏一种能够综合各模型优势的方法。1. 如何提取不同模型在各自领域的优势,并引导模型进行有效学习?针对该问题,我们首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。
原创
发布博客 2024.10.20 ·
949 阅读 ·
15 点赞 ·
0 评论 ·
7 收藏

LOKI图片类别

发布视频 2024.10.20

LOKI 3D类别

发布视频 2024.10.20

LOKI视频类别

发布视频 2024.10.20

前所未有的体验!普通移动设备就能渲染全息影像啦!上海科大和赜深科技提出V³

文章链接:https://arxiv.org/pdf/2409.13648 Github链接:https://authoritywang.github.io/v3/亮点直击提出,一种通过流式传输高质量Gaussian Splatting来支持在普通设备上渲染全息影像的新方法。展示了一种紧凑的动态高斯表示,将高斯属性嵌入到2D高斯视频中,以便于硬件视频编解码器的使用。提出了一种高效的训练策略,通过运动-外观解耦、残差熵损失和时间损失来保持时间连续性。提出了多平台全息影像播放器,支持实时播放和流媒
原创
发布博客 2024.10.17 ·
815 阅读 ·
6 点赞 ·
0 评论 ·
6 收藏

2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估

PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。
原创
发布博客 2024.10.17 ·
1024 阅读 ·
23 点赞 ·
0 评论 ·
20 收藏

个性化图像生成新王炸!无需微调,Meta重磅发布Imagine yourself:三大核心全面SOTA!

具体来说,提出了一种新颖的合成配对数据生成机制,新的完全并行架构结合了三个文本编码器和一个可训练的视觉编码器,以优化身份保留和文本对齐,以及一种新颖的由粗到细的多阶段微调方法,旨在逐步增强视觉吸引力,从而推动生成图像的视觉吸引力边界。在这种设置下,通过训练,网络学习如何在生成提示引导的图像背景时,将参考图像映射到群体照片中的对应主体。对于控制方法,本文注意到姿势图像的选择对最终生成图像的构成起着重要作用,即对于某些提示,精心选择的姿势图像可以使生成的图像更好或更差。消融结果突出显示了多阶段微调的影响。
原创
发布博客 2024.10.14 ·
1076 阅读 ·
28 点赞 ·
0 评论 ·
8 收藏
加载更多