〔更多精彩AI内容,尽在 「魔方AI空间」 公众号,引领AIGC科技时代〕
本文作者:猫先生
AIGC月刊 | 技术革新与应用案例(2024.5月第一期)|【魔方AI新视界】写在前面
【魔方AI新视界】 专栏致力于梳理和探索AIGC领域内的创新技术与有影响力的实际应用案例。我们计划以月刊的形式定期发布内容,目的是让读者站在AI时代的最前沿,紧跟时代发展的步伐,自信而坚定地跟随AI技术的最新趋势。
此外,猫先生也会根据读者的反馈,持续对专栏内容和版面设计进行更新和改进。我们非常欢迎读者提出宝贵的建议,一起交流和学习,共同推动专栏的完善和成长!💪
大家好,我是猫先生,AI技术爱好者与深耕者!!
阅读猫先生整理的《魔方AI新视界》专栏,您将获得以下宝贵收获:
- 前沿技术洞察:深入了解AIGC行业的核心技术动向,涵盖AI绘画、AI视频、大型模型、多模态技术以及数字人等领域的最新进展,让您始终站在技术发展的最前沿。
- 职业发展助力:在专栏中发现那些能够激发创新灵感的关键技术和应用案例,这些内容对您的职业发展具有重要意义,帮助您在专业领域中取得突破。
- 紧跟时代潮流:通过专栏,您将能够准确把握时代的脉搏,自信而坚定地跟随AI技术的最新趋势,确保您在快速发展的AI时代中保持竞争力。
《魔方AI新视界》不仅是一个信息的汇聚地,更是一个促进思考、激发创新的平台,猫先生期待与您一起探索AI的无限可能。
本文是《魔方AI新视界》专栏的第一期,周期为2024年5月1日-2024年5月31日。在本期中,猫先生将采用精炼而扼要的语言,对AI领域的前沿技术进行介绍,并提供详情链接,以便于您能够进一步探索和学习。
本文整理自《AIGCmagic社区飞书知识库》的每周AI大事件板块,飞书主页地址:AIGCmagic社区,欢迎大家点赞评论!!
正文开始
1. 阿里发布ViViD:视频虚拟试穿技术,旨在革新虚拟试衣体验
- 基于先进扩散模型,能够实现视频中人物衣物的实时替换;
- 支持多种服装类型,包括上半身、下半身和连衣裙,适应多样化的试穿需求;
- 视觉质量、时间一致性和细节保留方面均优于现有的其他方法。
详情地址:https://alibaba-yuanjing-aigclab.github.io/ViViD
2. ChatTTS: 日常对话生成语音模型
- 对话式 TTS: ChatTTS针对对话式任务进行了优化,实现了自然流畅的语音合成,同时支持多说话人;
- 细粒度控制: 该模型能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等;
- 更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型,支持进一步的研究。
详情地址:https://github.com/2noise/ChatTTS
3. MusePose: 虚拟人类图像到视频框架
- MusePose 是一个基于扩散和姿势引导的虚拟人视频生成框架;
- MusePose 是 Muse 开源系列的最后一个构建块,另外两个分别是MuseV和MuseTalk;
- 一个虚拟人可以生成一个具有全身运动和互动的原生能力。
详情地址:https://github.com/TMElyralab/MusePose
4. SignLLM:世界上第一个通过文字描述生成手语视频的多语言手语模型
- 文本到手语视频转换: 能够将输入文本或提示转化为相应的手语手势视频;
- 支持多种手语: 能够生成包括美国手语(ASL)、德国手语(GSL)在内的八种不同手语;
- 首创多语言手语数据集: 引入世界上首个多语言手语数据集,名为Prompt2Sign;
- 基于数据集的模型开发: 基于Prompt2sign数据集,开发多种生成手语模型,这表明SignLLM项目在手语生成技术方面取得了显著的进展。
5. 技术解读:《腾讯混元Hunyuan-DiT:基于DiT架构的最佳中文实践》
- 一种文本到图像的扩散Transformer,可以对英语和中文进行细粒度的理解;
- 精心设计了 Transformer 结构、文本编码器和位置编码;
- 构建整个数据管道来更新和评估数据以进行迭代模型优化。
6. 5月22日凌晨,微软发布Phi-3-vision多模态小模型
- Phi-3-vision是一个4.2B参数的多模态模型,具有图像理解能力;
- 在benchmark数据集上性能超过Claude-3 Haiku和Gemini 1.0 Pro V;
- 目前Phi-3家族已有4个模型:Phi-3-mini,Phi-3-small,Phi-3-medium和Phi-3-vision。
详情地址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3
7. 减轻大型语言模型幻觉现象的新方法
- 摘要: 近期有研究提出了一种新方法,旨在减轻基于人工神经网络的大型语言模型(LLMs)产生的幻觉问题。这些模型能够处理、生成和操纵各种文本,但有时会产生与现实不符的虚假信息。新方法的提出有望改善LLMs的准确性和可靠性。
8. OpenBMB: 手机上的GPT-4V模型
- 摘要: OpenBMB项目推出MiniCPM-Llama3-V 2.5,一款类似GPT-4V水平的多模态语言模型,可在手机上运行,使用Python语言编写。
- MiniCPM-Llama3-V 2.5:🔥🔥🔥 MiniCPM-V系列的最新、性能最佳模型。总参数量8B,多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 能力及指令跟随能力进一步提升,并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术,MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署。
- MiniCPM-V 2.0:MiniCPM-V系列的最轻量级模型。总参数量2B,多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型,可接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。
9. 5月13日,OpenAI最新旗舰大模型GPT-4o:多模态能力惊人
- GPT-4o(“o”=omni,代表“全能”)是迈向更自然的人机交互的一步;
- 不仅免费可用,能力更是横跨听、看、说,丝滑流畅毫无延迟;
- GPT-4o 在视觉和音频理解方面表现特别出色;
- 直播回放地址:https://www.youtube.com/watch?v=DQacCB9tDaw
10. 5月15日,谷歌发布Veo:文生超1分钟、1080P视频,媲美Sora
- **高分辨率视频生成:**Veo 能够生成高质量的1080p分辨率视频
- **长时长视频:**生成的视频时长可以超过一分钟
- **电影效果:**支持各种电影效果的提示,如延时摄影和航拍镜头
- **视觉一致性:**通过先进的技术减少视频帧之间的不一致性,保持场景和角色的连贯性
11. 5月15日,谷歌发布Project Astra:支持跨文本、视频、音频的多模态AI Agent
- 全民AI代理时代来了
- Project Astra是主动的、可教的和个性化的
- 类似GPT-4o的语音交互,用户可以自然地与它交谈,没有滞后或延迟
- Astra可以配合谷歌眼镜使用,为盲人提供实时解读功能
12. Llama3 中文聊天项目综合资源库
- 集合了与Llama3 模型相关的各种中文资料,包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。
详情地址:https://github.com/CrazyBoyM/llama3-Chinese-chat
13. 文生一切大模型Lumina-T2X:一个框架整合图像、视频、音频和3D生成
- **多模态生成能力:**将图像、视频、音频和 3D生成「一网打尽」。
- **统一架构:**Lumina-T2X 系列模型都基于流的大型扩散Transformers(Flag-DiT)架构,提供了一个通用的框架来处理不同的内容生成任务。
- **成本效益:**Lumina-T2X 在减少训练成本方面表现出色。例如,由50亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类6亿参数模型的35%。
- **高质量的图像生成:**已发布的 Lumina-T2I 图像生成模型展示了出色的图像质量。
- **高效的模型设计:**Lumina-T2I 的模型主干采用了 Large-DiT,文本编码模型使用了 Llama2-7B,而 VAE(变分自编码器)则采用了 SDXL。
详情地址:https://github.com/Alpha-VLLM/Lumina-T2X
14. 阿里巴巴发布通义千问 2.5
- 宣称全面超越GPT-4 Turbo,中文能力最强。
- 该模型在理解、逻辑推理、指令遵循和代码能力上全面提升。
- 基准测试结果显示得分追平GPT-4 Turbo。
- Qwen1.5-110B开源模型超越Meta的Llama-3-70B。
详情地址:https://tongyi.aliyun.com/qianwen/
15. 中国首个长时长、高一致性、高动态性视频大模型:Vidu
- **模型结构:**Vidu 模型融合了 Diffusion 与 Transformer 技术,创新性地开发了 U-ViT 架构。
- **视频生成能力:**Vidu 能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。
- **实际应用演示:**在官方资料中,展示了一个视频示例,内容是“画室中的一艘船驶向镜头”,展现了船和海浪的逼真效果。
- **高级功能:**Vidu 不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成和高时空一致性。
详情地址:https://www.shengshu-ai.com/home
16. InternVL开源多模态模型:GPT-4V开源替代方案
- 优秀的图像和文本处理能力,支持高分辨率输入。
- 竞争并超越顶尖商业模型在多个基准测试上。
详情地址:https://github.com/OpenGVLab/InternVL
技术交流
加入 「AIGCmagic社区」群聊,一起交流讨论,涉及 AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在 「魔方AI空间」,关注了解全栈式 AIGC 内容!!