雷递网 乐天 4月11日
商汤科技日前举办2025技术交流日活动,推出全新升级的“日日新SenseNova V6”(简称:日日新V6)大模型体系。商汤科技称,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
日日新V6模型能力对标OpenAI o1。
商汤称,日日新V6多模态训练整体效率对齐语言训练实现业内最低、推理成本均实现业界最低;全新的轻量级全模态交互模型SenseNova V6 Omni带来了国内最强的多模态交互能力;涵盖国内首个支持10分钟中长视频深度解析的大模型,对标Gemini 2.5 Turbo达到同类型最强。
商汤科技董事长兼首席执行官徐立表示:“AI之道,在于百姓之日用。商汤日日新V6将跨越多模态边界,释放推理与智能的无限可能。”
在复杂繁琐的文档处理场景中,「日日新 V6」同样能够以多模态强推理能力解决用户难题。以保险理赔场景为例,「日日新 V6」可根据商业医疗保险理赔材料,判断提供材料是符合理赔要求,检查是否存在乱开药、乱检查、材料缺失或者材料对不齐等问题。
小额理赔虽然金额小但往往耗费时间长(3-7天),而交给「日日新 V6」,它能自己检测到风险提示,自己交叉验证,最后再给到用户非常细节、多维的结论,完成模型到客户使用的最后一公里。
得益于多模态强化学习的突破,商汤构建了面向多种图文任务的混合增强学习框架,基于不同难度分级和多奖励模型的强化学习训练。
凭借“全局记忆”能力,「日日新 V6」打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。「日日新 V6」还可以对视频的精彩内容进行智能剪辑输出,帮助用户保留珍贵瞬间。
针对一段《黑神话》游戏录屏,游戏玩家们日常积累的游戏录制、实况,输入「日日新 V6」理解精彩内容和值得记录的时间,剪辑出高光时刻,同时可自定义生成解说文案,帮助分享游玩经验和游戏内的精彩操作
商汤自研技术可将视觉信息(画面)、听觉信息(语音、音效)、语言信息(字幕、口语)、时间轴逻辑进行对齐,形成多模态统一时序表征。
在此基础上通过细粒度级联信息压缩和内容敏感的动态过滤,实现长视频的高比例压缩,10分钟视频可以压缩到 16K tokens,仍然保留关键语义。
伴随日日新SenseNova V6的发布,商汤日日新实时交互融合大模型升级至「SenseNova V6 Omni」,在角色扮演、翻译点读、文旅导游、讲解绘本、数学讲解等场景下进行了深度优化。
以翻译点读场景为例,「SenseNova V6 Omni」让用户通过手指就能实现精准位置的空间交互,并精准理解局部信息与全局信息的关系。「SenseNova V6 Omni」拥有更像人的感知和表达能力、情感理解能力,并已在具身智能等领域实现多行业、多场景落地。
整合日日新SenseNova V6全部能力,商汤商量也迎来全面升级,并推出全新商量APP。用户通过一个入口,即可体验文字、图像、视频等多种模态流式交互体验。
———————————————
雷递由媒体人雷建平创办,若转载请写明来源。