FLUX：AI 图像生成的新王者；VideoDoodles：在视频中添加手绘涂擦动画丨 RTE 开发者日报

声网

于 2024-08-13 14:24:30 发布

阅读量575

点赞数 11

文章标签：人工智能实时互动

本文链接：https://blog.csdn.net/agora_cloud/article/details/141162483

版权

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、FLUX：AI 图像生成的新王者

在这里插入图片描述

近日，由 Stable Diffusion 原班人马打造的开源文生图模型 FLUX 迅速走红网络，因其逼近 Midjourney 的出色生成质量成为文生图领域的「开源王者」。

Flux 生成的合影无论是脸部打光、肌肉纹理还是毛发，都看不出丝毫破绽，即使是背景板人物们，也很自然，挑不出太大毛病。

Flux 的出现被认为是 AI 图像生成领域的一大突破。它不仅展示了人工智能技术在视觉艺术方面的强大潜力，也预示着未来艺术与科技融合的无限可能。对于艺术家、设计师以及所有喜爱探索新技术的人来说，这款工具提供了一个前所未有的平台来实现他们对美的追求和创造。（@IT 之家）

2、Meta 联手牛津大学研究员开发 VFusion3D 大模型，可改变 VR、游戏等领域

Meta 和牛津大学的研究人员开发的人工智能模型 VFusion3D，能够从单个图像或文本描述中生成高质量的 3D 对象，是向可扩展 3D 人工智能迈出的重要一步，可以改变 VR、游戏和数字设计等领域。

为了克服人工智能领域长期存在的 3D 训练数据稀缺的问题，研究团队对现有的视频人工智能模型进行了微调，以产生多视角视频序列（本质上是教会它从多个角度想象物体），然后使用合成数据来训练 VFusion3D。随着 AI 技术的进步以及更多可用于微调的 3D 数据，研究人员预计 VFusion3D 的能力将继续快速提高。

当然，尽管它具有令人印象深刻的能力，但这项技术并非没有限制。研究人员指出，系统有时会在处理车辆和文本等特定对象类型时遇到困难。但他们认为，视频 AI 模型的未来发展可能有助于解决这些缺点。（@映维网 Nweon）

3、LG 发布首款开源大模型 EXAONE 3.0

LG AI Research 近日发布韩国首个开源 AI 模型 EXAONE 3.0，标志着韩国进入了由美国科技巨头以及中国和中东新兴企业主导的全球 AI 领域。

EXAONE 3.0 开源模型基于 Decoder-only Transformer 架构，参数数量为 7.8B，训练数据量（tokens）为 8T，是一款针对英语和韩语的双语模型。

官方测试显示，该模型的英语能力达到「全球顶级水平」，真实用例平均分第一，超越了 Llama 3.0 8B、Gemma 2 9B 等一众模型。在数学和编码方面，EXAONE 3.0 的平均得分也排名第一，推理能力也较强。LG 声称，EXAONE 3.0 与上一代产品相比，推理时间缩短了 56%，内存使用量减少了 35%，运营成本降低了 72%；与首次发布的 EXAONE 1.0 相比，成本降低了 6%。（@IT 之家）

4、IBM 推出生成式 AI 网络安全助手

IBM 宣布在其托管威胁检测和响应服务中引入生成式 AI 功能，供 IBM Consulting 的分析人员使用，从而协助客户推进和简化安全运营。IBM Consulting Cybersecurity Assistant 基于 IBM 的数据和 AI 平台 watsonx 构建，旨在加快和改进对关键安全威胁的识别、调查和响应。

除了被纳入 IBM Consulting 的威胁检测和响应服务，Cybersecurity Assistant 还将成为 IBM Consulting Advantage 的一部分，后者是一个 AI 服务平台，包含为 IBM 咨询顾问量身定制的 AI 资产。

具体而言，IBM Consulting Cybersecurity Assistant 提供的功能包含两方面：通过历史关联分析加快威胁调查和修复和利用对话式引擎简化操作任务。（@Ai 时代前沿）

5、VideoDoodles：在视频中添加手绘涂擦动画

VideoDoodles 用于简化视频涂鸦（video doodles）的制作过程，这是一种将视频内容与手绘动画相结合的新兴艺术形式。该系统通过在重建自视频的 3D 场景中放置平面画布，并允许用户将画布锚定到场景中的静态或动态对象上，使得画布能够跟随这些对象的移动和旋转。

系统提供了一个 2D 图像空间的用户界面，允许用户通过关键帧来精细控制画布的位置和方向，同时系统会处理关键帧之间的插值，并对视频中移动的物体进行跟踪。这种方法可以在视频的任何帧中正确呈现场景感知画布，包括遮挡、透视变换，并使画布跟随移动的物体。研究表明，新手可以在短时间内创建多种动画剪辑，而专业人士则赞扬了该系统的速度和易用性。该项目得到了多方支持，包括 ERC Starting Grant D3 和 Adobe 的软件和研究捐赠。（@雷锋网）

02有态度的观点

1、Cohere 联创 Nick Frosst：AI 不太可能达到通用人工智能

Cohere 的联合创始人 Nick Frosst 认为，尽管人工智能公司正在迅速吸引投资并获得高估值，但这并不意味着行业正处于泡沫期。Frosst 指出，Cohere 通过为企业客户构建定制 AI 模型，已经帮助客户实现了之前不可能的新功能和流程自动化，这证明了 AI 技术的实用价值。

他对 AI 达到通用人工智能的可能性持怀疑态度，认为 AI 不会成为「数字神」，而是一种强大且有用的工具。Cohere 的商业模式基于 Aidan Gomez 的研究，其中包括一个大型语言模型能够提供更多价值的观点。Frosst 还提到，企业应该专注于 AI 技术的实际应用，而不是期望单一模型解决所有问题。他强调，Cohere 对 AI 技术的实用性持谨慎态度，并且认为 AI 不会导致人类的消亡。（@雷锋网）

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。
在这里插入图片描述