AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展(2024.8月第四期)|【魔方AI新视界】

〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕

关注了解更多AI内容

本文作者:猫先生

AIGCmagic社区知识库(免费访问)

原文地址:AIGC月刊 | 大模型/多模态/文生图/AI视频最新技术进展(2024.8月第四期)【魔方AI新视界】

写在前面

【魔方AI新视界】专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。

此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪

大家好,我是猫先生,AI技术爱好者与深耕者!!

阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:

  1. 前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。

  2. 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。

  3. 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第四期,周期为2024年8月1日-2024年8月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区,欢迎大家点赞评论!!

往期回顾

正文开始

1. Magic最新消息:LTM-2-Mini 第一个100M Token 上下文的模型

  • 100M token 约等于 1000 万行代码或 750 部小说;

  • LTM-2-Mini 模型在处理大量代码或文本时,比现有的注意力机制模型要高效得多;

  • Magic与谷歌云合作,正在构建新的超级计算机,以支持他们的AI模型训练和部署。

  • 项目主页:https://magic.dev/blog/100m-token-context-windows

2. 阿里发布最新视觉语言模型:Qwen2-Vl 更清晰地看世界

  • Qwen2-Vl开源两个版本模型:Qwen2-VL-2B-Instruct 和 Qwen2-VL-7B-Instruct,并发布了 Qwen2-VL-72B 的 API

  • Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。

  • 能够操作手机和机器人的视觉智能体借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。

  • 项目地址:https://qwenlm.github.io/zh/blog/qwen2-vl/

3. 智谱AI震撼发布GLM-4-Plus:媲美GPT-4,并展示了强大的视频通话能力

  • 语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。

  • 使用了大量模型辅助构造高质量合成数据以提升模型性能;

  • 利用 PPO 有效有效提升模型推理(数学、代码算法题等)表现,更好反应人类偏好。

  • 官方介绍:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w

4. 字节Hyper-SD:只需 2s 快速生图

5. 第一个Flux IpAdapter 模型开源

  • 来自 XLabs-AI 的 IP-Adapter 经过 512x512 分辨率(50k 步)和 1024x1024(25k 步)分辨率的训练,适用于 512x512 和 1024x1024 分辨率。

  • 效果还没有 SDXL 和 SD1.5 的好,但值得期待!

  • 项目地址:https://huggingface.co/XLabs-AI/flux-ip-adapter

6. VEnhancer: AI 视频超清修复,已被CogVideoX支持

  • VEnhancer 在统一的框架中实现了空间超分辨率、时间超分辨率(帧插值)和视频优化。

  • 可以灵活地适应不同的上采样因子(例如,1x~8x),以实现空间或时间超分辨率

  • 提供灵活的控制功能,可以修改细化强度,以处理多样化的视频伪影。

  • 项目地址:https://github.com/Vchitect/VEnhancer

7. FancyVideo:通过跨帧文本指导实现动态且一致的视频生成

  • 360 视觉引擎团队发布的一个文生视频模型,主要解决动作连贯、情节流畅的视频问题。

  • FancyVideo通过精心设计的 Cross-frame Textual Guidance Module (CTGM) 改进了现有的文本控制机制。

  • 项目主页:https://fancyvideo.github.io/

8. TurboEdit:基于文本的实时图像编辑

  • Adobe 研究院发布的能够通过提示词实时编辑照片的技术。

  • 只需 8 Steps 预处理,然后每次修改只需 4 Steps,性能充足的情况下接近实时。

  • 项目主页:https://betterze.github.io/TurboEdit/

9. UniPortrait:统一定制单ID和多ID个性化框架

  • 一种创新的人类图像个性化框架,将单ID和多ID定制与高人脸保真度、广泛的人脸可编辑性、自由格式的输入描述和多样化的布局生成相结合。

  • 仅由两个即插即用模块组成:ID嵌入模块和ID路由模块。

  • 项目主页:https://aigcdesigngroup.github.io/UniPortrait-Page/

10. ControlNeXt:强大而高效的图像和视频生成控制

  • 用于可控生成的官方实现,支持图像和视频,同时包含多种形式的控制信息。

  • 与ControlNet相比,该方法将可训练参数减少了90%,实现了更快的收敛和出色的效率。

  • 该方法可以直接与其他LoRA技术结合使用,以改变样式并确保更稳定的生成。

  • 项目主页:https://pbihao.github.io/projects/controlnext/index.html

11. Qwen发布数学语言模型:Qwen2-Math,超越GPT-4o、Claude-3.5

  • Qwen2-Math,旨在提升推理能力,特别是在解决算术和数学问题方面。

  • Qwen2-Math 系列包括 1.5B、7B 和 72B 参数。

  • 基于 Qwen2 LLM 构建的专门用于数学解题的语言模型,这些模型基于大量高质量的数学语料库进行预训练,并通过基于指令的训练微调,以解决复杂的数学问题。

  • 项目地址:https://github.com/QwenLM/Qwen2-Math

12. 谷歌推出Gemini Live:让您的移动设备成为强大的 AI 助手

  • Gemini Live 是一种移动对话体验,可让您与 Gemini 进行自由流畅的对话。

  • 对标 ChatGPT 的语音模式,支持支持打断、深入讨论和暂停后继续对话,提供了 10 种不同的声音,未来会支持 IOS 设备和其他语言。

  • 项目主页:https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

13. 字节发布LLaVA-OneVision:开源多模态大模型

  • 第一个能够在三个重要的计算机视觉场景(单图像、多图像和视频场景)中同时突破开放式 LMM 性能极限的单一模型

  • 允许跨不同模式/场景进行强大的迁移学习,从而产生新的能力,LLaVA-NeXT 的进化版本

  • 通过从图像到视频的任务转移,展示了强大的视频理解和跨场景能力。

  • 项目地址:https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

14. MiniCPM-V:端侧可用的 GPT-4V 级单图、多图、视频多模态大模型

  • MiniCPM-V系列的最新、性能最佳模型。总参数量 8B,单图、多图和视频理解性能超越了 GPT-4V

  • 在单图理解上,它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet等商用闭源模型的表现

  • 成为首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型

  • 项目地址:https://github.com/OpenBMB/MiniCPM-V.git

15. InternVideo2:用于多模态视频理解的缩放视频基础模型

  • 一个开源的视频理解模型,拥有 60 亿参数的编码器和超过 4 亿个样本。

  • 在 Kinetics 400 中达到92.1% Top1 准确率。

  • 60多个视频/音频相关任务(包括动作识别、时间定位、检索等)上实现了SOTA性能

  • 项目地址:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/

16. 智谱清影:开源视频生成模型 CogVideoX-2B

  • 这是首个开源的基于 Transformer 的大型文本生成视频模型。

  • 性能更强,参数量更大的模型正在到来的路上。

  • 项目地址:https://github.com/THUDM/CogVideo.git

17. 重磅!全新开源图像生成模型Flux.1,媲美 Midjourney

  • FLUX.1 是由一众大佬成立的 Black Forest Labs 组织推出的全新生图模型系列,在人手、文字、光影和细节上表现的非常不错,在 ELO 测试上远超 SD3-Ultra 和 Ideogram

  • 项目主页:https://blackforestlabs.ai/announcing-black-forest-labs/

18. Stability AI 推出Stable Fast 3D

  • SF3D 将单个图像作为输入,并在一秒内生成带纹理的 UV 展开 3D 模型

  • SF3D经过明确的网格生成训练,结合了快速 UV 展开技术,可以快速生成纹理,而不是依赖顶点颜色

  • 项目主页:https://stable-fast-3d.github.io/

19. Google推出Gemma2 2B模型能够在手机、笔记本电脑、台式机等边缘设备上运行

  • 利用了知识蒸馏技术,通过从更大、更复杂的模型中学习,将其知识传递到较小的模型中,取得了超出预期的性能表现。

  • 适用于多种文本生成任务,包括问答、摘要和推理

  • 项目主页:https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

20. MindSearch:模仿人类思维引发深度AI搜索

  • MindSearch 是一款具有 Perplexity.ai Pro 性能的开源 AI 搜索引擎框架

  • 可以自由的使用闭源或开源 LLM,在深度、广度和生成响应的准确性三个方面均超越 ChatGPT-Web 和 Perplexity.ai (Pro)

  • 项目主页:https://github.com/InternLM/MindSearch

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式 AIGC内容!!

推荐阅读

AIGCmagic社区共建邀请函!

万字长文 | AIGC时代算法工程师的面试秘籍(2024.5.13-5.26第十四式)

AIGC | 「视频生成」系列之Suno制作MV视频工作流分享(保姆级)

AIGC|一文梳理「AI视频生成」技术核心基础知识和模型应用

 AIGC潮流:2023年的冲击与2024年的趋势预测

AIGC|OpenAI文生视频大模型Sora技术拆解(含全网资料汇总)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值