AIGC月刊 | 技术革新与应用案例(2024.7月第三期)|【魔方AI新视界】

〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕

本文作者:猫先生

 往期回顾

写在前面

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。

此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪

大家好,我是猫先生,AI技术爱好者与深耕者!!

阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:

  1. 前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。

  2. 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。

  3. 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第三期,周期为2024年7月1日-2024年7月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区,欢迎大家点赞评论!!

正文开始

1. 全球上线 | Vidu 一下,让想象变成现实!

🌎 2024年7月30日:Vidu 全球上线 | 注册即刻体验

⚡️极速生成:30秒最快推理速度

🤩 动漫风格:万物皆可二次元

😸 角色可控:任意场景、任何动作,角色保持一致

🎬 大片质感:电影级画面一键直出

👓 动态特效:立省百万制作费

🎥 精准理解:镜头、文字、动作,理解更准、生成更稳

🔍 Web 端访问:https://www.vidu.studio/

2. Stable Video 4D 正式上线

  • SV4D将参考视频作为输入并生成新颖的视图视频和 4D 模型

  • 40 秒内生成 8 个新视角的 5 帧视频,而整个 4D 优化过程大约需要 20 到 25 分钟

  • 将对未来的 3D 和 4D 影片制作带来巨大的影响。

  • 项目地址:https://sv4d.github.io/

暂时无法在飞书文档外展示此内容

3. 智谱 CogVideoX:视频生成模型

  • 由智谱 AI 开发的视频生成大模型,仅需 30 秒即可完成 6 秒视频的生成

  • 具备强大的视频生成能力、只需输入文本或图片就可以轻松完成视频制作

  • 还提供了API,单次价格为 0.5 元,支持文生视频、图生视频

  • 项目地址:https://chatglm.cn/video


4. Llama 3.1 发布:超越GPT-4o

  • 有405B、70B、8B三种模型

  • 支持多语言和工具调用,性能媲美 GPT-4

  • 未来会支持图/视频识别和语音交互

  • 训练使用了 16000 个 H100 GPU

  • 开源许可更新,允许使用其输出训练其他模型

  • 项目地址:https://github.com/meta-llama/llama3

5. Odyssey:《我的世界》构建通用智能体

  • 具有开放世界技能库的交互式代理,其中包含 40 种原始技能和 183 种组合技能

  • 经过微调的 LLaMA-3 模型,在大型问答数据集上进行训练,该数据集包含来自 Minecraft Wiki 的 39 万多个指令条目

  • 一个新的开放世界基准包括数千个长期规划任务、数十个动态即时规划任务和一个自主探索任务

  • 项目地址:https://github.com/zju-vipa/odyssey

6. IoA:让智能体像人类一样在互联网上进行协作

  • 想象一下,如果AI 智能体可以像人类在互联网上那样进行协作。这就是 IoA 背后的想法!

  • 一个开源框架,旨在创建一个平台,让不同的AI 智能体可以组队处理复杂的任务。

  • 项目地址:https://github.com/OpenBMB/IoA

 7. 阿里发布Qwen2-Audio:一个大规模音频语言模型

  • 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本。

  • 两种不同的音频交互模式:语音聊天voice chat和音频分析audio analysis。

  • 项目地址:https://github.com/QwenLM/Qwen2-Audio.git

8. IMAGDressing-v1:可定制的虚拟试衣

  • 简单的架构:可制作栩栩如生的服装,并支持简单的用户驱动场景编辑。

  • 新任务:定义虚拟着装(VD)任务并设计综合亲和力指标(CAMI)指标。

  • 灵活的插件兼容性:IMAGDressing-v1 与 IP-Adapter、ControlNet、T2I-Adapter 和 AnimateDiff 等扩展插件适度集成。

  • 快速定制:无需额外的 LoRA 培训即可在几秒钟内实现快速定制。

  • IGPair 数据集:发布新的交互式服装搭配 (IGPair) 数据集。

  • 项目地址:https://imagdressing.github.io/

9. DiffIR2VR-Zero:模糊视频8K高清修复技术

  • 一种创新的零样本视频恢复技术,该技术利用预训练的图像恢复模型,解决了传统方法在不同场景下泛化能力不足的问题。

  • 项目地址:https://github.com/jimmycv07/DiffIR2VR-Zero

10. 快手的LivePortrait:肖像动画框架 | 可精准控制眼睛和嘴唇动作

  • 它能够从单一图像生成生动的动画视频,并能精确控制眼睛和嘴唇的动作,确保动画的自然流畅。

  • 还可以处理多个人物肖像的无缝拼接,确保在多个动态人物之间过渡平滑,不会产生突兀的边界效果。

  • 弃用扩散方法,而是探索和扩展基于隐式关键点框架的潜力,有效地平衡了计算效率和可控性。

  • 项目主页:https://liveportrait.github.io/

11. 阿里开源EchoMimic: 又一数字人头技术 | 肖像动画框架

  • 与LivePortrait不同,EchoMimic 不仅能通过参考表情生成视频,还能够通过音频匹配对应口型,还支持将两者混用,即通过音频控制口型,通过 landmarks 来控制姿势和表情。

  • 项目主页:https://badtobest.github.io/echomimic.html

12. Odyssey:好莱坞级的AI视频生成和编辑工具

  • OdysseyML 正在构建好莱坞级的视觉人工智能,使故事讲述者能够创作出新的、令人惊叹的电影、电视节目和视频游戏。

  • OdysseyML 正在训练四个生成模型,以生成高质量几何图形、逼真的材质、惊人的灯光效果和可控的动作,从而实现对视觉故事核心层次的完全控制。

  • 官方地址:https://odyssey.systems/

13. TTT:超越Transformer和Mamba的新架构诞生了?

  • 测试时间训练(Test-Time Training,TTT)是由斯坦福大学、加州大学和Meta Al共同研究的一种新型的语言模型(LLM)架构,这种模型可以处理更长的文本内容,性能优于现有的Mamba和Transformer模型。

  • 论文地址:https://arxiv.org/pdf/2407.04620

14. FoleyCrafter:自动为视频配音 | 开源AI配音技术 | AI视频有声时代真的来了

  • FoleyCrafter 是一种基于文本的视频到音频生成框架,可以生成语义相关且与输入视频时间同步的高质量音频。

  • 它不只是能为视频配音配音效,还能为静音的视频生成契合的音频,同时还能同步视频时间轴语义相关的音效,简单来说就是可以让无声的视频变有声,且高度契合。

  • 项目地址:https://foleycrafter.github.io/

15. 商汤重磅推出Vimi——亮相WAIC,成为“镇馆之宝” | 2024世界人工智能大会

  • 摘要:可控人物视频生成算法模型 Vimi 是首个可控人物视频生成AIGC产品。基于商汤日日新大模型能力,它可以通过动作视频、动画、声音、文字等多种驱动元素来驱动人物类图片,从而生成和目标动作一致的人物类视频。

  • 内测申请:https://vme-int.softsugar.com/questionnaire/

16. 快手「可灵AI」Web端平台上线及全新功能限时免费

  • 文生视频:画质升级,单次10s视频生成;

  • 图生视频:画质提升,支持自定义首尾帧;

  • 运镜控制:提供丰富的镜头控制选项,大师级运镜方;

  • 视频编辑:Web 端平台支持提供“首尾帧”及“运镜控制”功能。

  • 项目地址:https://klingai.kuaishou.com/

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!

推荐阅读

AIGCmagic社区共建邀请函!

万字长文 | AIGC时代算法工程师的面试秘籍(2024.5.13-5.26第十四式)

AIGC | 「视频生成」系列之Suno制作MV视频工作流分享(保姆级)

AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用

 AIGC潮流:2023年的冲击与2024年的趋势预测

AIGC|OpenAI文生视频大模型Sora技术拆解(含全网资料汇总)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值