近日,商汤科技推出“日日新SenseNovaV6”(以下简称“日日新V6”)系列多模态融合大模型。这是国内首个支持10分钟中长视频深度解析的大模型,也是首个支持长思维链的64K多模态模型,推理成本与效率双突破,让AI智能真正融入生活高频场景。
随着人工智能技术飞速发展,多模态模型作为能够同时理解和处理多种类型数据的技术,正逐渐成为AI领域的前沿方向。近一个月,百度“文心一言4.0”、字节“豆包大模型”纷纷强化多模态布局,MiniMax等创业公司也在语音、视频理解上快速突破。在业内看来,多模态正成为技术、商业和交互维度交汇的核心阵地。
多模态AI技术迭代
多模态大模型是基于深度学习的机器学习技术,其核心是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。
多模态大模型的优点在于能够充分利用不同媒体数据的信息,提取出更加丰富、全面的特征,从而提高模型的性能和泛化能力。此外,多模态大模型还可以通过学习不同模态之间的关联,进一步增强模型的语义理解和表达能力。
和以往发布的大模型相比,商汤科技本次推出的日日新V6通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
从模型性能看,日日新V6在长思维链、推理、数理、全局记忆方面拥有显著优势,多模态推理能力国内第一,对标GPT-o1,数据分析能力大幅领先GPT-4o;高效能与低成本结合,多模态训练整体效率对齐语言训练实现业内最优水平,推理成本亦实现业界最低。
凭借“全局记忆”能力,日日新V6打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析,对标Gemini2.5Turbo达到同类型最强。多维信息压缩是实现这一突破的重要技术,商汤科技自研的技术可以将视觉信息(画面)、听觉信息(语音、音效)、语言信息(字幕、口语)、时间轴逻辑进行对齐,并形成多模态统一时序表征。
伴随日日新V6的发布,商汤科技还同步推出实时交互融合大模型SenseNovaV6Omni。这一模型针对角色扮演、翻译点读、文旅导游、讲解绘本、数学讲解等场景进行了深度优化,同时实现轻量级的全模态交互模型升级,拥有国内最强的多模态交互能力。
商汤科技董事长兼首席执行官徐立表示:“AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”
多模态大模型的突破,正快速激活各类新场景、新模式,比如席卷全球的GPT-4o“吉卜力风”、形态各异的AI机器人等,激发行业大量跨模态能力需求。打通从产品到多模态场景的端到端行业解决方案,是AI2.0时代新兴行业加速技术落地,传统行业实现数智升级的“快车道”。
目前,多模态AI已广泛应用于智能客服、智能家居、自动驾驶、医疗影像分析、教育娱乐等多个领域,成为推动各行业数字化转型的重要力量。
规模效率与成本平衡难题
中研普华产业研究院发布的《2025-2030年中国多模态AI行业市场深度调研与发展趋势报告》显示,随着人工智能技术的快速发展,多模态AI作为其中的重要分支,正逐渐成为中国AI市场的新热点。
2024年中国多模态AI市场规模已达到约150亿元,同比增长约30%。预计未来几年,随着技术的不断成熟与应用场景的拓展,中国多模态AI市场将继续保持高速增长态势,到2025年市场规模有望突破200亿元大关。
商汤科技尽管在多模态大模型、生成式AI、智慧城市等领域取得一定突破,但在行业竞争中仍面临多维度挑战,这些挑战既来自技术、市场、商业化层面,也涉及生态博弈。
3月26日,商汤科技发布2024年度财报,全年总营收37.72亿元,净亏损43.07亿元。自2018年以来,商汤科技已连续7年亏损,累计亏损额超过500亿元。高额研发投入虽推动技术突破,但短期内难以转化为盈利,资金链压力显著。
中国多模态AI市场竞争格局呈现出多元化竞争的特点。一方面,以百度、腾讯、阿里巴巴等为代表的互联网巨头凭借强大的技术实力、丰富的数据资源及完善的生态体系,在多模态AI领域占据领先地位。
另一方面,以商汤科技、云从科技、依图科技为代表的AI企业也通过技术创新与差异化竞争,在市场中占据一席之地。此外,还有一些传统行业企业开始布局多模态AI领域,试图通过数字化转型提升自身竞争力。
国际上,OpenAI的GPT系列模型是全球多模态模型领域的领先产品。该模型支持多模态交互与内容生成,能够生成更加自然、多样的文本、图像和语音内容。GPT系列模型的成功应用,为全球多模态模型行业的发展提供了重要的参考和借鉴。
语音内容。GPT系列模型的成功应用,为全球多模态模型行业的发展提供了重要的参考和借鉴。
大模型赛道风起云涌,当行业陷入“模型规模竞赛”和“C端流量争夺”时,商汤选择在亏损压力下聚焦多模态技术与垂直场景深度融合。然而,如何保持技术领先的同时实现盈利,也是AI企业能否在AI2.0时代持续领跑的关键。
如何学习AI大模型?
大模型的发展是当前人工智能时代科技进步的必然趋势,我们只有主动拥抱这种变化,紧跟数字化、智能化潮流,才能确保我们在激烈的竞争中立于不败之地。
那么,我们应该如何学习AI大模型?
对于零基础或者是自学者来说,学习AI大模型确实可能会感到无从下手,这时候一份完整的、系统的大模型学习路线图显得尤为重要。
它可以极大地帮助你规划学习过程、明确学习目标和步骤,从而更高效地掌握所需的知识和技能。
这里就给大家免费分享一份 2025最新版全套大模型学习路线图,路线图包括了四个等级,带大家快速高效的从基础到高级!
如果大家想领取完整的学习路线及大模型学习资料包,可以扫下方二维码获取
👉2.大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。(篇幅有限,仅展示部分)
大模型教程
👉3.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(篇幅有限,仅展示部分,公众号内领取)
电子书
👉4.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(篇幅有限,仅展示部分,公众号内领取)
大模型面试
**因篇幅有限,仅展示部分资料,需要的扫描下方二维码领取 **