
AI作画
文章平均质量分 73
吴脑的键客
凡人修仙,AGI散修。领域展开——四海皆兄弟!!!了解更多前沿资讯,关注公众号——吴脑的键客
展开
-
LBM:潜在桥接匹配用于图像重照明
潜在桥匹配(LBM)是一种创新的图像到图像转换方法,通过潜在空间中的桥匹配实现快速转换。该方法能够根据背景重新照亮前景对象,具有多功能性和可扩展性。用户可以通过安装相关库并使用提供的代码进行推理,快速生成转换后的图像。更多信息可参考实时演示和官方Github仓库。原创 2025-05-15 13:49:31 · 305 阅读 · 0 评论 -
Step1X-3D:实现高保真和可控 纹理 3D 资产的生成
Step1X-3D是一个创新的开放框架,旨在解决3D生成领域中的数据稀缺、算法限制和生态系统碎片化等挑战。该框架通过严格的数据处理流程,处理超过500万个资产,创建了一个包含200万个高质量数据集的标准化几何和纹理属性。Step1X-3D采用了两阶段的3D原生架构,结合了混合VAE-DiT几何生成器和基于SD-XL的纹理合成模块,确保了跨视图一致性和细节保留。该框架完全开源,包括模型、训练代码和适配模块,支持将2D控制技术直接转移到3D合成中。基准测试表明,Step1X-3D在性能上超越了现有的开源方法,并原创 2025-05-15 06:30:00 · 1013 阅读 · 0 评论 -
ICEdit:开启指令式图像编辑的新时代
ICEdit是由浙江大学与哈佛大学联合开发的高效图像编辑技术框架,旨在解决传统图像编辑方法在精度与效率之间的权衡问题。其核心技术包括上下文编辑框架、LoRA-MoE混合微调策略和推理时早期筛选策略。ICEdit通过自然语言指令驱动图像编辑,支持多轮编辑、风格转换、对象替换与添加等功能,处理速度快且资源需求低。其开源性和低成本使其适用于内容创作、辅助设计、智能交互等多种应用场景。ICEdit的成功不仅提升了图像编辑的质量和效率,还为未来技术发展提供了新的可能性。原创 2025-05-13 08:42:07 · 927 阅读 · 0 评论 -
Step1X-Edit开源了,仅需45GB就可以获得GPT4o的编辑效果
我们发布了最先进的图像编辑模型 Step1X-Edit,其性能可与 GPT-4o 和 Gemini2 Flash 等闭源模型相媲美。更具体地说,我们采用了多模态 LLM 来处理参考图像和用户的编辑指令。我们提取了潜在嵌入,并将其与扩散图像解码器相结合,从而获得目标图像。为了训练模型,我们建立了一个数据生成管道,以生成高质量的数据集。为了进行评估,我们开发了 GEdit-Bench,这是一种植根于真实世界用户指令的新型基准。原创 2025-04-26 12:12:50 · 593 阅读 · 0 评论 -
腾讯旗下InstantCharacter框架正式开源 可高度个性化任何角色
目前基于学习的主题定制方法主要依赖于 U-Net 架构,但其泛化能力有限,图像质量也大打折扣。同时,基于优化的方法需要针对特定主题进行微调,这不可避免地会降低文本的可控性。为了应对这些挑战,我们提出了 “即时角色”(InstantCharacter)–一种基于基础扩散变换器的可扩展字符定制框架。InstantCharacter 展示了三个基本优势:首先,它在保持高保真效果的同时,实现了不同角色外观、姿势和风格的开放域个性化。原创 2025-04-19 10:23:02 · 708 阅读 · 0 评论 -
ControlNet作者再现神迹,发布FramePack——让消费级显卡也能快速生成视频
FramePack是一种下一帧(下一帧部分)预测神经网络结构,可逐步生成视频。FramePack将输入上下文压缩为恒定长度,因此生成工作量与视频长度无关。即使在笔记本电脑 GPU 上,FramePack 也能使用 13B 模型处理大量帧。FramePack可以用更大的批次规模进行训练,类似于图像扩散训练的批次规模。原创 2025-04-18 13:23:05 · 1670 阅读 · 1 评论 -
如何在消费级显卡运行 HiDream-I1 全家桶
HiDream-I1 是一个全新的开源图像生成基础模型,拥有 17B 个参数,可在数秒内实现最先进的图像生成质量。我们提供完整版和精简版模型。它们的参数大小相同,因此运行时所需的 GPU 内存量也相同。不过,由于减少了推理步骤,蒸馏模型的运行速度更快。原创 2025-04-17 13:30:26 · 731 阅读 · 0 评论 -
字节开源全新 Flux 可控模型——从少到多的泛化: 通过上下文生成解锁更多可控性
尽管主体驱动生成技术因其广泛的应用而在图像生成领域得到了广泛的探索,但它在数据可扩展性和主体扩展性方面仍面临挑战。就第一个挑战而言,从策划单主体数据集到多主体数据集并对其进行扩展尤为困难。其次,最近的大多数方法都是以单主体生成为中心,因此在处理多主体情况时很难应用。在本研究中,我们提出了一种高度一致的数据合成管道来应对这一挑战。该管道利用扩散变换器内在的上下文生成能力,生成高一致性的多主体配对数据。此外,我们还引入了 UNO,它由渐进式跨模态配准和通用旋转位置嵌入组成。原创 2025-04-10 16:36:51 · 550 阅读 · 0 评论 -
国产AI崛起!17亿参数开源图像模型HiDream-I1横空出世
技术专家分析认为,HiDream-I1的成功很可能源于其开发团队对扩散模型前沿技术的精准把握,以及大规模预训练策略的巧妙应用。随着社区参与度的提升和技术的不断迭代,这款国产AI模型不仅有望成为中国人工智能技术的新名片,更可能在全球开源生态中占据重要位置,为更广泛的用户群体打开AI创意世界的大门,让人工智能的魅力触手可及。近日,国产开源图像生成模型HiDream-I1震撼发布,凭借17亿参数的技术底蕴,这款由HiDream-ai团队倾力打造的AI"画匠"正迅速成为科技圈新宠。原创 2025-04-09 10:46:49 · 485 阅读 · 0 评论 -
VACE:AI 驱动的一站式视频创作与编辑平台
VACE(Video Creation and Editing Framework)是由阿里巴巴集团通义实验室开发的一种创新的视频创作和编辑框架,它将多种视频任务整合到一个统一的平台中,实现了从文本到视频生成、视频编辑到复杂任务组合的全面覆盖。原创 2025-04-03 07:17:00 · 646 阅读 · 0 评论 -
合成数据立功!AccVideo实现高质量视频生成、速度飙升8. 5倍
在人工智能视频生成领域,扩散模型以其卓越的性能备受瞩目。然而,其固有的迭代去噪特性导致生成过程耗时且计算成本高昂,成为制约其广泛应用的关键瓶颈。近日,来自B北京航空大学、香港大学和上海人工智能实验室的研究团队联合发布了一项名为 AccVideo 的创新技术。该方法通过一种新颖高效的蒸馏方法,并结合合成数据集,成功将视频扩散模型的生成速度提升了惊人的8.5倍。现有的视频扩散模型在生成高质量视频方面表现出色,但其迭代式的去噪过程需要大量的推理步骤。原创 2025-03-29 09:16:42 · 480 阅读 · 0 评论 -
告别低质信息图!清华、微软联手打造BizGen,一键生成专业级幻灯片和海报,让你的内容瞬间高大上!
别担心,你的救星来了!清华大学、微软研究院等顶尖机构联手推出了一款名为BizGen的秘密武器,它就像一位技艺高超的设计大师,能够根据你提供的文章内容,瞬间变幻出专业水准的信息图和幻灯片,让你的工作效率直接起飞!你可以把它想象成一个拥有65万个设计模板的宝藏,每一个模板都标注了各种元素的精确位置和功能,这为BizGen的学习和理解复杂的商业设计奠定了坚实的基础。它凭借其独特的技术优势和卓越的生成质量,极大地降低了制作专业级信息图和幻灯片的门槛,让每个人都能轻松地将复杂的信息转化为引人入胜的视觉内容。原创 2025-03-28 10:46:44 · 502 阅读 · 0 评论 -
清华大学开源Video-T1:测试时扩展助力视频生成质量飞跃
然而,传统的视频生成模型往往需要通过增大基础模型的参数量和预训练数据来提升性能,这不仅意味着高昂的计算资源需求,还限制了模型在实际应用中的灵活性。清华大学开源的Video-T1通过创新的测试时扩展策略,为视频生成领域提供了一种新的、有效的提升质量的方法。随着进一步的研究,我们有理由相信TTS技术将在视频生成领域发挥越来越重要的作用,为视频生成技术的发展和应用带来更多的可能性。例如,在描述“一只戴着太阳镜的猫在泳池边担任救生员”的视频中,经过TTS处理后的视频中,猫的形象更加清晰,救生员的动作也更加自然。原创 2025-03-27 08:28:20 · 998 阅读 · 0 评论 -
字节推文生图框架InfiniteYou :可保持人脸特征,场景随便换
InfuseNet就像一位技艺高超的化妆师,通过“残差连接”这种精细的操作,在增强人脸相似度的同时,还不破坏原有的生成能力。这种精细化的训练策略,能够显著提升文本和图像的对齐度,让生成的图像更符合你的文字描述,同时还能提高图像质量和美观度,并有效缓解“换脸”后常见的面部复制粘贴问题。简单的说,这是一款文本到图像的生成模型,它的厉害之处在于,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像。这可不是简单的换脸App能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。原创 2025-03-22 09:53:31 · 636 阅读 · 0 评论 -
腾讯混元开源5款3D生成模型:亚秒级生成、多模态支持,重构3D内容创作生态
腾讯混元在3D开源日活动中宣布重磅升级,一次性开源5款基于Hunyuan3D-2.0架构的全新3D生成模型,并同步推出升级后的3D AI创作引擎,面向开发者与C端用户全面开放。此次开源的模型涵盖Turbo加速系列、多视图版本(3Dmv)及轻量版(3Dmini),通过自研加速框架与功能创新,实现了生成速度、细节精度与设备兼容性的跨越式突破。原创 2025-03-20 13:54:15 · 1488 阅读 · 0 评论 -
【魔搭社区开源】如何使用DiffSynth运行HunyuanVideo TI2V 模型
混元视频是由腾讯训练的视频生成模型。是HunyuanVideo的图像视频生成版本。我们还为该型号提供高级 VRAM 管理。原创 2025-03-17 10:12:07 · 382 阅读 · 0 评论 -
叫板Sora?潞晨科技开源视频大模型Open-Sora 2.0,降本提速
听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技宣布!仅仅花费了区区20万美元(相当于224张 GPU 的投入),就成功训练出了一个拥有的商业级视频生成大模型。性能直追“OpenAI Sora ”别看 Open-Sora2.0成本不高,实力可一点都不含糊。它可是敢于叫板行业标杆 HunyuanVideo 和拥有300亿参数的 Step-Video 的狠角色。原创 2025-03-14 08:55:52 · 794 阅读 · 0 评论 -
腾讯混元发布图生视频模型HunyuanVideo-I2V,并上线对口型等玩法
自开源以来,混元视频生成模型的热度不断上升,去年 12 月更是登顶 HuggingFace 的全站趋势榜第一,Github 上的 Star 数已超过 8.9K。这款图生视频模型是混元文生视频模型开源工作的延续,模型总参数量达 130 亿,适合生成多种类型的角色和场景,涵盖写实视频、动漫角色和 CGI 角色等。HunyuanVideo-I2V 结合了先进的视频生成技术,能够将静态图像转换为生动的视频内容,为创作者提供了更多的可能性。官网:https://video.hunyuan.tencent.com/原创 2025-03-10 11:18:46 · 597 阅读 · 0 评论 -
【魔搭社区开源】如何使用DiffSynth运行阿里Wan2.1模型
Wan-Video-14B-T2V 是 Wan-Video-1.3B-T2V 的增强版,尺寸更大,功能更强。不过,我们发现该模型对精度更为敏感,因此当生成的视频内容出现伪影等问题时,请切换到 bfloat16 精度,并使用 num_persistent_param_in_dit 参数来控制 VRAM 的使用。Wan-Video-14B-I2V 在 Wan-Video-14B-T2V 的基础上增加了图像到视频的功能。Wan-Video-1.3B-T2V支持文本转视频和视频转视频。我们支持图像和视频。原创 2025-03-10 11:12:50 · 1722 阅读 · 0 评论 -
阿里开源视频生成模型Wan 2.1上线
近日,阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1,该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端,成为目前视频生成领域的佼佼者。与此之前发布的 QwQ-Max 不同,Wan2.1在复杂运动的细节处理上表现出色,能够流畅地实现多个人物的同步舞蹈,令人惊叹不已。官方演示中,Wan2.1不仅成功克服了静态图像生成中的难题,如文字的处理更是达到了新的高度。对于普通用户来说,虽然14B 的参数在个人消费级显卡上部署较为困难,但阿里还特别推出了一个1.3B 的小版本,原创 2025-03-10 10:54:22 · 1431 阅读 · 0 评论 -
智谱开源文生图模型CogView4,支持中英双语提示词输入
智谱AI最新开源文生图模型CogView4正式亮相,CogView4不仅在参数数量上达到了6亿,还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”。CogView4以支持中英双语提示词输入为核心亮点,尤其擅长理解和遵循复杂的中文指令,成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域的一大空白。此外,该模型支持生成任意宽高图片,并能处理任意长度的提示词输入,展现出极高的灵活性。CogView4的双语能力得益于技术架构的全面升级。原创 2025-03-06 08:42:38 · 762 阅读 · 0 评论 -
PhotoDoodle AI 只需几个提示即可将您的照片变成异想天开的艺术作品
字节跳动携手中国和新加坡大学研究团队推出的新型AI图像编辑系统PhotoDoodle,正在重新定义我们对图像创作的理解。这款基于Flux.1模型的创新技术,能够从少量样本中学习艺术风格,并精准执行特定编辑指令,为创意表达开辟了全新可能。原创 2025-02-28 12:58:26 · 300 阅读 · 0 评论 -
天工 AI 开源人工智能视频工具 SkyReels V1
SkyReels V1 是一款开创性的人工智能视频工具,它正在改变我们制作视频的方式。它与其他人工智能视频工具的不同之处在于它的易用性,因为它对每个人都开放使用,而且它具有捕捉人类表情和情感的卓越能力。原创 2025-02-24 08:49:54 · 1494 阅读 · 0 评论 -
阶跃星辰开源阶跃视频 Step-Video-T2V权重及代码
我们提出了 Step-Video-T2V,这是一种最先进的(SoTA)文本到视频预训练模型,拥有 300 亿个参数,能够生成多达 204 帧的视频。为了提高训练和推理效率,我们提出了视频深度压缩 VAE,实现了 16x16 的空间压缩率和 8x 的时间压缩率。直接偏好优化(DPO)应用于最后阶段,以进一步提高生成视频的视觉质量。原创 2025-02-21 07:56:22 · 1765 阅读 · 0 评论 -
【AI绘画】如何在Colab中使用字节开源的 Hyper-SD
在不断发展的图像合成技术中,Hyper-SD是一项突破性的技术,它在速度和质量方面不断推陈出新。本博客文章将深入探讨 Hyper-SD 的复杂性,探索其独特的方法、卓越的性能以及在各种应用中的潜力。原创 2025-02-17 06:00:00 · 358 阅读 · 0 评论 -
Lumina-Image-2.0:强大的文本到图像模型
您准备好探索令人兴奋的文本到图像生成世界了吗?今天,我们将深入探讨 Lumina-Image-2.0 的功能,这是 Alpha-VLLM 开发的一款出色的人工智能模型。该模型是一个具有 20 亿个参数的基于流的扩散变换器,可以根据文本描述生成令人惊叹的图像,从而开辟一个全新的创意领域。原创 2025-02-11 10:51:40 · 957 阅读 · 0 评论 -
字节联合港大发布新视频模型Goku:可直接生成虚拟数字人视频
特别是,它可以生成超过20秒的视频,以稳定的手部动作和人类受试者极具表现力的面部和身体动作为特色。该模型利用先进的生成算法,可以根据文本提示生成高质量的视频内容,极大地丰富了数字艺术的表现形式。为了展示 Goku 模型的强大功能,研究团队制作了一系列精彩的视频示例,这些示例不仅展示了模型的技术能力,也展现了其在创意表现上的无限潜力。这些视频有效地捕捉了产品的精髓,提高了观众的参与度和兴趣。另外,模型支持文本创建定制的高清视频,以优化广告场景,明显优于竞争对手的视频基础模型。原创 2025-02-11 07:23:14 · 1096 阅读 · 0 评论 -
腾讯发布混元3D生成大模型2.0,开创一站式3D内容创作新时代
腾讯宣布开源其混元3D 生成大模型2.0,并同步推出混元3D AI 创作引擎,标志着业界首个 “一站式3D 内容 AI 创作平台” 的正式上线。这一创新平台使得用户可以通过简单的文字或图片输入,快速生成高质量的3D 模型,极大地简化了3D 内容创作的过程。混元3D 生成大模型2.0在技术上进行了全面升级,特别是在几何和纹理两个关键方面。原创 2025-01-22 10:36:07 · 911 阅读 · 0 评论 -
节约每一分钱 从零开始的微预算扩散培训
我们还结合了变换器架构的最新改进,如使用专家混合层,以提高性能,并进一步确定在微预算训练中使用合成图像的关键优势。最后,我们仅使用3700万张公开的真实和合成图像,就训练出了11.6亿个参数的稀疏变换器,经济成本仅为1890美元,并在COCO数据集上实现了12.7FID的零镜头生成。值得注意的是,我们的模型在自动评估和以人为中心的评估中都取得了具有竞争力的性能,并实现了高质量的生成,同时成本比稳定扩散模型低118倍,比目前最先进的方法(成本为28,400美元)低14倍。原创 2025-01-20 13:45:24 · 755 阅读 · 0 评论 -
Flex.1-Alpha - 可进行适当微调的新修改通量模型。
Flex.1以FLUX.1-schnell-training-adapter开始,目的是在FLUX.1-schnell上训练LoRA。最初的目标是训练一个可以在训练过程中激活的LoRA,以便对步长压缩模型进行微调。我将这个适配器并入了FLUX.1-schnell,并继续在FLUX.1-schnell模型生成的图像上训练它,以进一步分解压缩,同时不注入任何新数据,目的是制作一个独立的基础模型。这就是后来的OpenFLUX.1,经过几个月的持续训练,共发布了10个版本。原创 2025-01-20 09:09:22 · 1038 阅读 · 0 评论 -
震撼登场!英伟达开源图像生成模型Sana ,1秒生图、支持中英文和emoji
研究团队引入了一种深度压缩自编码器(DC-AE),相比于传统的自编码器,Sana 的压缩比高达32倍,大大减少了潜在标记的数量,这对于生成超高分辨率图像至关重要。其次,Sana 采用了线性扩散变换器(DiT),用线性注意力取代了传统的二次注意力,从而将复杂度降低到 O (N),并通过3×3深度卷积提升了局部信息的捕捉能力。据了解,Sana 能够生成4096×4096分辨率的图像,并且可以在16GB 的显卡上运行,不到1秒的时间内生成1024×1024分辨率的高质量图片,这一速度在同类模型中表现突出。原创 2025-01-17 11:17:35 · 677 阅读 · 0 评论 -
Stability AI 推出 SPAR3D:单图像生成 3D 对象一秒钟搞定
在刚刚结束的 CES 展会上,Stability AI 宣布推出一种名为 SPAR3D(Stable Point Aware3D)的创新方法,这种两阶段的3D 生成技术能够在不到一秒的时间内,从单个图像中生成精确的3D 对象。该技术的推出为游戏开发者、产品设计师和环境构建者提供了全新的3D 原型设计方式。SPAR3D 的独特之处在于,它能够分别建模可见部分和不可见部分。在生成3D 对象时,该方法提供了准确的几何形状及完整的360度视图,包括物体背面的细节。原创 2025-01-13 08:00:00 · 639 阅读 · 0 评论 -
与英伟达™(NVIDIA®)合作,为更多创作者带来快如闪电的 FLUX 性能
我们与英伟达™(NVIDIA®)的新合作标志着我们在使 FLUX 模型更加普及和高效方面取得了重大飞跃。通过降低内存要求、提高性能、支持更多种类的 GPU 以及为 3D 环境提供新功能,我们正在共同扩大全球创作者、开发者和工匠社区。原创 2025-01-08 06:00:00 · 427 阅读 · 0 评论 -
字节推1.58位量化FLUX模型 内存减少7.7倍,性能不减反增!
研究人员通过一种名为1.58位量化的方法,对FLUX模型中的视觉转换器权重进行压缩,使其仅采用 {-1,0, +1} 三个数值。尽管1.58位FLUX在速度改进和高分辨率图像细节渲染方面仍存在一些局限性,但其在提高模型效率和降低资源消耗方面的巨大潜力,有望为未来的研究提供新的思路。在GenEval和T2I Compbench基准测试中的评估表明,1.58位FLUX在保持与全精度FLUX模型相当的生成质量的同时,显著提高了计算效率。无需图像数据: 量化过程无需访问任何图像数据,仅依赖模型自身的自监督。原创 2025-01-06 08:54:09 · 500 阅读 · 0 评论 -
字节跳动发布Infinity:自回归文生图新突破,性能超越扩散模型
Infinity模型的核心创新在于采用了Bitwise Token的自回归框架,这一框架通过预测下一级分辨率的+1或-1构成的细粒度“Bitwise Token”,显著提升了模型对高频信号的捕捉能力,从而生成细节更加丰富的图像。在推理速度上,Infinity继承了VAR的速度优势,2B模型生成1024x1024的图像仅需0.8秒,比同尺寸的SD3-Medium快3倍,比12B的Flux Dev快14倍。随着模型大小的增加和训练资源的投入,验证集损失稳步下降,验证集准确率稳定提升。原创 2025-01-04 09:39:48 · 710 阅读 · 0 评论 -
stable-diffusion-3.5-medium也迎来了自己的Turbo版
TensorArt Stable Diffusion 3.5 Medium Turbo(SD3.5M Turbo)是从 StabilityAI 的 stable-diffusion-3.5-medium 中提炼出来的高性能文本到图像模型。该模型强调稳定性和效率,适用于各种艺术风格和创意表达场景。原创 2024-12-26 12:41:44 · 731 阅读 · 0 评论 -
重磅突破!新型文本驱动风格转换技术大幅提升图像生成质量
使用教师模型进行布局稳定:在生成的早期阶段引入教师模型。此外,基于风格的无分类器引导(SCFG) 有效地解决了风格歧义的问题,它可以选择性地强调所需的风格元素,同时过滤掉不相关的或冲突的特征。总而言之,这项研究提出的方法能够有效缓解现有文本驱动风格转换技术中存在的风格过拟合和布局不稳定性问题,从而实现更高质量的图像生成,并为文本到图像的合成任务提供了一个多功能且强大的解决方案。风格过拟合:现有模型倾向于复制参考图像的所有元素,导致生成图像过于贴近参考风格图像的特征,限制了生成图像的审美灵活性和适应性。原创 2024-12-22 08:02:14 · 632 阅读 · 0 评论 -
谷歌推创新AI图片工具Whisk:可上传多张图片,将主体、场景、风格融合
值得注意的是,在后台,谷歌的语言模型(可能是最近发布的 Gemini2.0Flash)会自动生成输入图像的详细描述。早期测试者,包括一些艺术家和创意专业人士,表示 Whisk 更像是一种新的创意工具,而不是传统的图像编辑器。经初步测试,虽然 Whisk 使用起来十分愉快,但每生成一张新图像需要等待几秒钟。AIbase进行了多次测试,上传了左侧的三张图片,就可以融合生成右侧的结果,效果还不错,可玩性很高。对此,谷歌表示,这些细节往往对项目的成败至关重要,因此允许用户查看和编辑驱动图像生成过程的文本提示。原创 2024-12-18 10:49:15 · 934 阅读 · 0 评论 -
NitroFusion:文本到图像生成的革命
NitroFusion 是一种尖端的文本到图像模型,建立在广受欢迎的 Diffusers 库之上。它利用稳定扩散和 sdxl 技术以及对抗扩散蒸馏的强大功能,创建出令人惊叹的逼真图像。该模型基于研究论文 “arxiv: 2412.02030”,该论文探讨了文本到图像生成的最新进展。原创 2024-12-14 11:44:02 · 382 阅读 · 0 评论 -
Meta “亮剑”!开源 AI 视频水印工具 Video Seal,狙击 Deepfake 泛滥
2024年,Deepfake 占所有欺诈行为的7%,从身份冒充、账户盗用到复杂的社会工程攻击,无不涉及 Deepfake 的身影。Meta 声称,Video Seal 可以抵御常见的编辑操作,如模糊和裁剪,以及常见的压缩算法。费尔南德斯承认,Video Seal 存在一定的局限性,主要是水印的可感知程度与其对操控的整体抵抗力之间的权衡。“我们希望越来越多的 AI 研究人员和开发人员将某种形式的水印整合到他们的工作中,”费尔南德斯说,“我们希望与行业和学术界合作,以更快地推动这一领域的发展。原创 2024-12-14 11:21:23 · 579 阅读 · 0 评论