多模态大模型推理成本与效率双突破

最新推荐文章于 2025-05-01 22:59:55 发布

AI大模型-海文

最新推荐文章于 2025-05-01 22:59:55 发布

阅读量333

点赞数 15

文章标签：人工智能学习 java 开发语言大数据 ai

本文链接：https://blog.csdn.net/HUANGXIN9898/article/details/147645486

版权

近日，商汤科技推出“日日新SenseNovaV6”（以下简称“日日新V6”）系列多模态融合大模型。这是国内首个支持10分钟中长视频深度解析的大模型，也是首个支持长思维链的64K多模态模型，推理成本与效率双突破，让AI智能真正融入生活高频场景。

随着人工智能技术飞速发展，多模态模型作为能够同时理解和处理多种类型数据的技术，正逐渐成为AI领域的前沿方向。近一个月，百度“文心一言4.0”、字节“豆包大模型”纷纷强化多模态布局，MiniMax等创业公司也在语音、视频理解上快速突破。在业内看来，多模态正成为技术、商业和交互维度交汇的核心阵地。

多模态AI技术迭代

多模态大模型是基于深度学习的机器学习技术，其核心是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。

多模态大模型的优点在于能够充分利用不同媒体数据的信息，提取出更加丰富、全面的特征，从而提高模型的性能和泛化能力。此外，多模态大模型还可以通过学习不同模态之间的关联，进一步增强模型的语义理解和表达能力。

和以往发布的大模型相比，商汤科技本次推出的日日新V6通过多模态长思维链训练、全局记忆、强化学习的技术突破，形成领先的多模态推理能力，并突破成本边界。

从模型性能看，日日新V6在长思维链、推理、数理、全局记忆方面拥有显著优势，多模态推理能力国内第一，对标GPT-o1，数据分析能力大幅领先GPT-4o；高效能与低成本结合，多模态训练整体效率对齐语言训练实现业内最优水平，推理成本亦实现业界最低。

凭借“全局记忆”能力，日日新V6打破了传统模型仅支持短视频的限制，可支持10分钟级视频全帧率解析，对标Gemini2.5Turbo达到同类型最强。多维信息压缩是实现这一突破的重要技术，商汤科技自研的技术可以将视觉信息（画面）、听觉信息（语音、音效）、语言信息（字幕、口语）、时间轴逻辑进行对齐，并形成多模态统一时序表征。

伴随日日新V6的发布，商汤科技还同步推出实时交互融合大模型SenseNovaV6Omni。这一模型针对角色扮演、翻译点读、文旅导游、讲解绘本、数学讲解等场景进行了深度优化，同时实现轻量级的全模态交互模型升级，拥有国内最强的多模态交互能力。

商汤科技董事长兼首席执行官徐立表示：“AI之道，在于百姓之日用。商汤日日新V6将跨越多模态边界，释放推理与智能的无限可能。”

多模态大模型的突破，正快速激活各类新场景、新模式，比如席卷全球的GPT-4o“吉卜力风”、形态各异的AI机器人等，激发行业大量跨模态能力需求。打通从产品到多模态场景的端到端行业解决方案，是AI2.0时代新兴行业加速技术落地，传统行业实现数智升级的“快车道”。

目前，多模态AI已广泛应用于智能客服、智能家居、自动驾驶、医疗影像分析、教育娱乐等多个领域，成为推动各行业数字化转型的重要力量。

规模效率与成本平衡难题

中研普华产业研究院发布的《2025-2030年中国多模态AI行业市场深度调研与发展趋势报告》显示，随着人工智能技术的快速发展，多模态AI作为其中的重要分支，正逐渐成为中国AI市场的新热点。

2024年中国多模态AI市场规模已达到约150亿元，同比增长约30%。预计未来几年，随着技术的不断成熟与应用场景的拓展，中国多模态AI市场将继续保持高速增长态势，到2025年市场规模有望突破200亿元大关。

商汤科技尽管在多模态大模型、生成式AI、智慧城市等领域取得一定突破，但在行业竞争中仍面临多维度挑战，这些挑战既来自技术、市场、商业化层面，也涉及生态博弈。

3月26日，商汤科技发布2024年度财报，全年总营收37.72亿元，净亏损43.07亿元。自2018年以来，商汤科技已连续7年亏损，累计亏损额超过500亿元。高额研发投入虽推动技术突破，但短期内难以转化为盈利，资金链压力显著。

中国多模态AI市场竞争格局呈现出多元化竞争的特点。一方面，以百度、腾讯、阿里巴巴等为代表的互联网巨头凭借强大的技术实力、丰富的数据资源及完善的生态体系，在多模态AI领域占据领先地位。

另一方面，以商汤科技、云从科技、依图科技为代表的AI企业也通过技术创新与差异化竞争，在市场中占据一席之地。此外，还有一些传统行业企业开始布局多模态AI领域，试图通过数字化转型提升自身竞争力。

国际上，OpenAI的GPT系列模型是全球多模态模型领域的领先产品。该模型支持多模态交互与内容生成，能够生成更加自然、多样的文本、图像和语音内容。GPT系列模型的成功应用，为全球多模态模型行业的发展提供了重要的参考和借鉴。