AIGC月刊 | 技术革新与应用案例(2024.5月第一期)|【魔方AI新视界】

〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕

本文作者:猫先生
AIGC月刊 | 技术革新与应用案例(2024.5月第一期)|【魔方AI新视界】

写在前面

【魔方AI新视界】 专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。

此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪

大家好,我是猫先生,AI技术爱好者与深耕者!!

阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:

  1. 前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。
  2. 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。
  3. 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第一期,周期为2024年5月1日-2024年5月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区,欢迎大家点赞评论!!
在这里插入图片描述

正文开始

1. 阿里发布ViViD:视频虚拟试穿技术,旨在革新虚拟试衣体验

  • 基于先进扩散模型,能够实现视频中人物衣物的实时替换;
  • 支持多种服装类型,包括上半身、下半身和连衣裙,适应多样化的试穿需求;
  • 视觉质量、时间一致性和细节保留方面均优于现有的其他方法。

详情地址:https://alibaba-yuanjing-aigclab.github.io/ViViD

在这里插入图片描述

2. ChatTTS: 日常对话生成语音模型

  • 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人;
  • 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等;
  • 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。

详情地址:https://github.com/2noise/ChatTTS

在这里插入图片描述

3. MusePose: 虚拟人类图像到视频框架

  • MusePose 是一个基于扩散和姿势引导的虚拟人视频生成框架;
  • MusePose 是 Muse 开源系列的最后一个构建块,另外两个分别是MuseV和MuseTalk;
  • 一个虚拟人可以生成一个具有全身运动和互动的原生能力。

详情地址:https://github.com/TMElyralab/MusePose
在这里插入图片描述

4. SignLLM:世界上第一个通过文字描述生成手语视频的多语言手语模型

  • 文本到手语视频转换: 能够将输入文本或提示转化为相应的手语手势视频;
  • 支持多种手语: 能够生成包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语;
  • 首创多语言手语数据集: 引入世界上首个多语言手语数据集,名为Prompt2Sign;
  • 基于数据集的模型开发: 基于Prompt2sign数据集,开发多种生成手语模型,这表明SignLLM项目在手语生成技术方面取得了显著的进展。
    在这里插入图片描述

5. 技术解读:《腾讯混元Hunyuan-DiT:基于DiT架构的最佳中文实践》

  • 一种文本到图像的扩散Transformer,可以对英语和中文进行细粒度的理解
  • 精心设计了 Transformer 结构、文本编码器和位置编码;
  • 构建整个数据管道来更新和评估数据以进行迭代模型优化。
    在这里插入图片描述

6. 5月22日凌晨,微软发布Phi-3-vision多模态小模型

  • Phi-3-vision是一个4.2B参数的多模态模型,具有图像理解能力;
  • 在benchmark数据集上性能超过Claude-3 Haiku和Gemini 1.0 Pro V;
  • 目前Phi-3家族已有4个模型:Phi-3-mini,Phi-3-small,Phi-3-medium和Phi-3-vision。

详情地址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
在这里插入图片描述

7. 减轻大型语言模型幻觉现象的新方法

  • 摘要: 近期有研究提出了一种新方法,旨在减轻基于人工神经网络的大型语言模型(LLMs)产生的幻觉问题。这些模型能够处理、生成和操纵各种文本,但有时会产生与现实不符的虚假信息。新方法的提出有望改善LLMs的准确性和可靠性。

8. OpenBMB: 手机上的GPT-4V模型

  • 摘要: OpenBMB项目推出MiniCPM-Llama3-V 2.5,一款类似GPT-4V水平的多模态语言模型,可在手机上运行,使用Python语言编写。
  • MiniCPM-Llama3-V 2.5:🔥🔥🔥 MiniCPM-V系列的最新、性能最佳模型。总参数量8B,多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 能力及指令跟随能力进一步提升,并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术,MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署
  • MiniCPM-V 2.0:MiniCPM-V系列的最轻量级模型。总参数量2B,多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型,可接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。
    在这里插入图片描述

9. 5月13日,OpenAI最新旗舰大模型GPT-4o:多模态能力惊人

  • GPT-4o(“o”=omni,代表“全能”)是迈向更自然的人机交互的一步;
  • 不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟;
  • GPT-4o 在视觉和音频理解方面表现特别出色;
  • 直播回放地址:https://www.youtube.com/watch?v=DQacCB9tDaw
    在这里插入图片描述

10. 5月15日,谷歌发布Veo:文生超1分钟、1080P视频,媲美Sora

  • **高分辨率视频生成:**Veo 能够生成高质量的1080p分辨率视频
  • **长时长视频:**生成的视频时长可以超过一分钟
  • **电影效果:**支持各种电影效果的提示,如延时摄影和航拍镜头
  • **视觉一致性:**通过先进的技术减少视频帧之间的不一致性,保持场景和角色的连贯性
    在这里插入图片描述

11. 5月15日,谷歌发布Project Astra:支持跨文本、视频、音频的多模态AI Agent

  • 全民AI代理时代来了
  • Project Astra是主动的、可教的和个性化的
  • 类似GPT-4o的语音交互,用户可以自然地与它交谈,没有滞后或延迟
  • Astra可以配合谷歌眼镜使用,为盲人提供实时解读功能
    在这里插入图片描述

12. Llama3 中文聊天项目综合资源库

  • 集合了与Llama3 模型相关的各种中文资料,包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。

详情地址:https://github.com/CrazyBoyM/llama3-Chinese-chat
在这里插入图片描述

13. 文生一切大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成

  • **多模态生成能力:**将图像、视频、音频和 3D生成「一网打尽」。
  • **统一架构:**Lumina-T2X 系列模型都基于流的大型扩散Transformers(Flag-DiT)架构,提供了一个通用的框架来处理不同的内容生成任务。
  • **成本效益:**Lumina-T2X 在减少训练成本方面表现出色。例如,由50亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类6亿参数模型的35%。
  • **高质量的图像生成:**已发布的 Lumina-T2I 图像生成模型展示了出色的图像质量。
  • **高效的模型设计:**Lumina-T2I 的模型主干采用了 Large-DiT,文本编码模型使用了 Llama2-7B,而 VAE(变分自编码器)则采用了 SDXL。

详情地址:https://github.com/Alpha-VLLM/Lumina-T2X
在这里插入图片描述

14. 阿里巴巴发布通义千问 2.5

  • 宣称全面超越GPT-4 Turbo,中文能力最强。
  • 该模型在理解、逻辑推理、指令遵循和代码能力上全面提升。
  • 基准测试结果显示得分追平GPT-4 Turbo。
  • Qwen1.5-110B开源模型超越Meta的Llama-3-70B。

详情地址:https://tongyi.aliyun.com/qianwen/
在这里插入图片描述

15. 中国首个长时长、高一致性、高动态性视频大模型:Vidu

  • **模型结构:**Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。
  • **视频生成能力:**Vidu 能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。
  • **实际应用演示:**在官方资料中,展示了一个视频示例,内容是“画室中的一艘船驶向镜头”,展现了船和海浪的逼真效果。
  • **高级功能:**Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。

详情地址:https://www.shengshu-ai.com/home
在这里插入图片描述

16. InternVL开源多模态模型:GPT-4V开源替代方案

  • 优秀的图像和文本处理能力,支持高分辨率输入。
  • 竞争并超越顶尖商业模型在多个基准测试上。

详情地址:https://github.com/OpenGVLab/InternVL
在这里插入图片描述

技术交流

加入 「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在 「魔方AI空间」,关注了解全栈式 AIGC 内容!!
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值