AIGC月刊 | 技术革新与应用案例（2024.5月第一期）|【魔方AI新视界】

本文链接：https://blog.csdn.net/m_aigc2022/article/details/140087252

〔更多精彩AI内容，尽在 「魔方AI空间」 公众号，引领AIGC科技时代〕

本文作者：猫先生
AIGC月刊 | 技术革新与应用案例（2024.5月第一期）|【魔方AI新视界】

写在前面

【魔方AI新视界】 专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容，目的是让读者站在AI时代的最前沿，紧跟时代发展的步伐，自信而坚定地跟随AI技术的最新趋势。

此外，猫先生也会根据读者的反馈，持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议，一起交流和学习，共同推动专栏的完善和成长！💪

大家好，我是猫先生，AI技术爱好者与深耕者！！

阅读猫先生整理的《魔方AI新视界》专栏，您将获得以下宝贵收获：

前沿技术洞察：深入了解AIGC行业的核心技术动向，涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展，让您始终站在技术发展的最前沿。
职业发展助力：在专栏中发现那些能够激发创新灵感的关键技术和应用案例，这些内容对您的职业发展具有重要意义，帮助您在专业领域中取得突破。
紧跟时代潮流：通过专栏，您将能够准确把握时代的脉搏，自信而坚定地跟随AI技术的最新趋势，确保您在快速发展的AI时代中保持竞争力。

《魔方AI新视界》不仅是一个信息的汇聚地，更是一个促进思考、激发创新的平台，猫先生期待与您一起探索AI的无限可能。

本文是《魔方AI新视界》专栏的第一期，周期为2024年5月1日-2024年5月31日。在本期中，猫先生将采用精炼而扼要的语言，对AI领域的前沿技术进行介绍，并提供详情链接，以便于您能够进一步探索和学习。

本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块，飞书主页地址：AIGCmagic社区，欢迎大家点赞评论！！

正文开始

1. 阿里发布ViViD：视频虚拟试穿技术，旨在革新虚拟试衣体验

基于先进扩散模型，能够实现视频中人物衣物的实时替换；
支持多种服装类型，包括上半身、下半身和连衣裙，适应多样化的试穿需求；
视觉质量、时间一致性和细节保留方面均优于现有的其他方法。

详情地址：https://alibaba-yuanjing-aigclab.github.io/ViViD

在这里插入图片描述

2. ChatTTS: 日常对话生成语音模型

对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人；
细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等；
更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

详情地址：https://github.com/2noise/ChatTTS

在这里插入图片描述

3. MusePose: 虚拟人类图像到视频框架

MusePose 是一个基于扩散和姿势引导的虚拟人视频生成框架;
MusePose 是 Muse 开源系列的最后一个构建块，另外两个分别是MuseV和MuseTalk；
一个虚拟人可以生成一个具有全身运动和互动的原生能力。

详情地址：https://github.com/TMElyralab/MusePose
在这里插入图片描述

4. SignLLM：世界上第一个通过文字描述生成手语视频的多语言手语模型

文本到手语视频转换： 能够将输入文本或提示转化为相应的手语手势视频；
支持多种手语： 能够生成包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语；
首创多语言手语数据集： 引入世界上首个多语言手语数据集，名为Prompt2Sign；
基于数据集的模型开发： 基于Prompt2sign数据集，开发多种生成手语模型，这表明SignLLM项目在手语生成技术方面取得了显著的进展。

5. 技术解读：《腾讯混元Hunyuan-DiT：基于DiT架构的最佳中文实践》

一种文本到图像的扩散Transformer，可以对英语和中文进行细粒度的理解；
精心设计了 Transformer 结构、文本编码器和位置编码；
构建整个数据管道来更新和评估数据以进行迭代模型优化。

6. 5月22日凌晨，微软发布Phi-3-vision多模态小模型

Phi-3-vision是一个4.2B参数的多模态模型，具有图像理解能力；
在benchmark数据集上性能超过Claude-3 Haiku和Gemini 1.0 Pro V；
目前Phi-3家族已有4个模型：Phi-3-mini，Phi-3-small，Phi-3-medium和Phi-3-vision。

详情地址：https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
在这里插入图片描述

7. 减轻大型语言模型幻觉现象的新方法

摘要: 近期有研究提出了一种新方法，旨在减轻基于人工神经网络的大型语言模型（LLMs）产生的幻觉问题。这些模型能够处理、生成和操纵各种文本，但有时会产生与现实不符的虚假信息。新方法的提出有望改善LLMs的准确性和可靠性。

8. OpenBMB: 手机上的GPT-4V模型

摘要: OpenBMB项目推出MiniCPM-Llama3-V 2.5，一款类似GPT-4V水平的多模态语言模型，可在手机上运行，使用Python语言编写。
MiniCPM-Llama3-V 2.5：🔥🔥🔥 MiniCPM-V系列的最新、性能最佳模型。总参数量8B，多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型，OCR 能力及指令跟随能力进一步提升，并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术，MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署。
MiniCPM-V 2.0：MiniCPM-V系列的最轻量级模型。总参数量2B，多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型，可接受 180 万像素的任意长宽比图像输入，实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。

9. 5月13日，OpenAI最新旗舰大模型GPT-4o：多模态能力惊人

GPT-4o（“o”=omni，代表“全能”）是迈向更自然的人机交互的一步；
不仅免费可用，能力更是横跨听、看、说，丝滑流畅毫无延迟；
GPT-4o 在视觉和音频理解方面表现特别出色；
直播回放地址：https://www.youtube.com/watch?v=DQacCB9tDaw

10. 5月15日，谷歌发布Veo：文生超1分钟、1080P视频，媲美Sora

**高分辨率视频生成：**Veo 能够生成高质量的1080p分辨率视频
**长时长视频：**生成的视频时长可以超过一分钟
**电影效果：**支持各种电影效果的提示，如延时摄影和航拍镜头
**视觉一致性：**通过先进的技术减少视频帧之间的不一致性，保持场景和角色的连贯性

11. 5月15日，谷歌发布Project Astra：支持跨文本、视频、音频的多模态AI Agent

全民AI代理时代来了
Project Astra是主动的、可教的和个性化的
类似GPT-4o的语音交互，用户可以自然地与它交谈，没有滞后或延迟
Astra可以配合谷歌眼镜使用，为盲人提供实时解读功能

12. Llama3 中文聊天项目综合资源库

集合了与Llama3 模型相关的各种中文资料，包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。

详情地址：https://github.com/CrazyBoyM/llama3-Chinese-chat
在这里插入图片描述

13. 文生一切大模型Lumina-T2X：一个框架整合图像、视频、音频和3D生成

**多模态生成能力：**将图像、视频、音频和 3D生成「一网打尽」。
**统一架构：**Lumina-T2X 系列模型都基于流的大型扩散Transformers（Flag-DiT）架构，提供了一个通用的框架来处理不同的内容生成任务。
**成本效益：**Lumina-T2X 在减少训练成本方面表现出色。例如，由50亿参数的 Flag-DiT 驱动的 Lumina-T2I，其训练计算成本仅为同类6亿参数模型的35%。
**高质量的图像生成：**已发布的 Lumina-T2I 图像生成模型展示了出色的图像质量。
**高效的模型设计：**Lumina-T2I 的模型主干采用了 Large-DiT，文本编码模型使用了 Llama2-7B，而 VAE（变分自编码器）则采用了 SDXL。

详情地址：https://github.com/Alpha-VLLM/Lumina-T2X
在这里插入图片描述