AIGC月刊 | 技术革新与应用案例（2024.7月第三期）|【魔方AI新视界】-CSDN博客

〔更多精彩AI内容，尽在 「魔方AI空间」 公众号，引领AIGC科技时代〕

本文作者：猫先生

往期回顾

AIGC 月刊 | 技术革新与应用案例（2024.6月第二期）【魔方AI新视界】

AIGC 月刊 | 技术革新与应用案例（2024.5月第一期）【魔方AI新视界】

写在前面

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。

此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

大家好，我是猫先生，AI技术爱好者与深耕者！！

阅读猫先生整理的《魔方AI新视界》专栏，您将获得以下宝贵收获：

前沿技术洞察：深入了解AIGC行业的核心技术动向，涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展，让您始终站在技术发展的最前沿。
职业发展助力：在专栏中发现那些能够激发创新灵感的关键技术和应用案例，这些内容对您的职业发展具有重要意义，帮助您在专业领域中取得突破。
紧跟时代潮流：通过专栏，您将能够准确把握时代的脉搏，自信而坚定地跟随AI技术的最新趋势，确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地，更是一个促进思考、激发创新的平台，猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第三期，周期为2024年7月1日-2024年7月31日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块，飞书主页地址：AIGCmagic社区，欢迎大家点赞评论！！

正文开始

1. 全球上线 | Vidu 一下，让想象变成现实！

🌎 2024年7月30日：Vidu 全球上线 | 注册即刻体验

⚡️极速生成：30秒最快推理速度

🤩 动漫风格：万物皆可二次元

😸 角色可控：任意场景、任何动作，角色保持一致

🎬 大片质感：电影级画面一键直出

👓 动态特效：立省百万制作费

🎥 精准理解：镜头、文字、动作，理解更准、生成更稳

🔍 Web 端访问：https://www.vidu.studio/

2. Stable Video 4D 正式上线

SV4D将参考视频作为输入并生成新颖的视图视频和 4D 模型
40 秒内生成 8 个新视角的 5 帧视频，而整个 4D 优化过程大约需要 20 到 25 分钟
将对未来的 3D 和 4D 影片制作带来巨大的影响。
项目地址：https://sv4d.github.io/

暂时无法在飞书文档外展示此内容

3. 智谱 CogVideoX：视频生成模型

由智谱 AI 开发的视频生成大模型，仅需 30 秒即可完成 6 秒视频的生成
具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作
还提供了API，单次价格为 0.5 元，支持文生视频、图生视频
项目地址：https://chatglm.cn/video

4. Llama 3.1 发布：超越GPT-4o

有405B、70B、8B三种模型
支持多语言和工具调用，性能媲美 GPT-4
未来会支持图/视频识别和语音交互
训练使用了 16000 个 H100 GPU
开源许可更新，允许使用其输出训练其他模型
项目地址：https://github.com/meta-llama/llama3

5. Odyssey：《我的世界》构建通用智能体

具有开放世界技能库的交互式代理，其中包含 40 种原始技能和 183 种组合技能
经过微调的 LLaMA-3 模型，在大型问答数据集上进行训练，该数据集包含来自 Minecraft Wiki 的 39 万多个指令条目
一个新的开放世界基准包括数千个长期规划任务、数十个动态即时规划任务和一个自主探索任务
项目地址：https://github.com/zju-vipa/odyssey

6. IoA：让智能体像人类一样在互联网上进行协作

想象一下，如果AI 智能体可以像人类在互联网上那样进行协作。这就是 IoA 背后的想法！
一个开源框架，旨在创建一个平台，让不同的AI 智能体可以组队处理复杂的任务。
项目地址：https://github.com/OpenBMB/IoA

7. 阿里发布Qwen2-Audio：一个大规模音频语言模型

能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本。
两种不同的音频交互模式：语音聊天voice chat和音频分析audio analysis。
项目地址：https://github.com/QwenLM/Qwen2-Audio.git

8. IMAGDressing-v1：可定制的虚拟试衣

简单的架构：可制作栩栩如生的服装，并支持简单的用户驱动场景编辑。
新任务：定义虚拟着装（VD）任务并设计综合亲和力指标（CAMI）指标。
灵活的插件兼容性：IMAGDressing-v1 与 IP-Adapter、ControlNet、T2I-Adapter 和 AnimateDiff 等扩展插件适度集成。
快速定制：无需额外的 LoRA 培训即可在几秒钟内实现快速定制。
IGPair 数据集：发布新的交互式服装搭配 (IGPair) 数据集。
项目地址：https://imagdressing.github.io/

9. DiffIR2VR-Zero：模糊视频8K高清修复技术

一种创新的零样本视频恢复技术，该技术利用预训练的图像恢复模型，解决了传统方法在不同场景下泛化能力不足的问题。
项目地址：https://github.com/jimmycv07/DiffIR2VR-Zero

10. 快手的LivePortrait：肖像动画框架 | 可精准控制眼睛和嘴唇动作

它能够从单一图像生成生动的动画视频，并能精确控制眼睛和嘴唇的动作，确保动画的自然流畅。
还可以处理多个人物肖像的无缝拼接，确保在多个动态人物之间过渡平滑，不会产生突兀的边界效果。
弃用扩散方法，而是探索和扩展基于隐式关键点框架的潜力，有效地平衡了计算效率和可控性。
项目主页：https://liveportrait.github.io/

11. 阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

与LivePortrait不同，EchoMimic 不仅能通过参考表情生成视频，还能够通过音频匹配对应口型，还支持将两者混用，即通过音频控制口型，通过 landmarks 来控制姿势和表情。
项目主页：https://badtobest.github.io/echomimic.html

12. Odyssey：好莱坞级的AI视频生成和编辑工具

OdysseyML 正在构建好莱坞级的视觉人工智能，使故事讲述者能够创作出新的、令人惊叹的电影、电视节目和视频游戏。
OdysseyML 正在训练四个生成模型，以生成高质量几何图形、逼真的材质、惊人的灯光效果和可控的动作，从而实现对视觉故事核心层次的完全控制。
官方地址：https://odyssey.systems/

13. TTT：超越Transformer和Mamba的新架构诞生了？

测试时间训练(Test-Time Training,TTT)是由斯坦福大学、加州大学和Meta Al共同研究的一种新型的语言模型(LLM)架构，这种模型可以处理更长的文本内容，性能优于现有的Mamba和Transformer模型。
论文地址：https://arxiv.org/pdf/2407.04620

14. FoleyCrafter：自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

FoleyCrafter 是一种基于文本的视频到音频生成框架，可以生成语义相关且与输入视频时间同步的高质量音频。
它不只是能为视频配音配音效，还能为静音的视频生成契合的音频，同时还能同步视频时间轴语义相关的音效，简单来说就是可以让无声的视频变有声，且高度契合。
项目地址：https://foleycrafter.github.io/

15. 商汤重磅推出Vimi——亮相WAIC，成为“镇馆之宝” | 2024世界人工智能大会

摘要：可控人物视频生成算法模型 Vimi 是首个可控人物视频生成AIGC产品。基于商汤日日新大模型能力，它可以通过动作视频、动画、声音、文字等多种驱动元素来驱动人物类图片，从而生成和目标动作一致的人物类视频。
内测申请：https://vme-int.softsugar.com/questionnaire/