在2024年4月23日举办的商汤技术交流日上,商汤科技的董事长兼CEO徐立宣布推出行业首个云、端、边全栈大模型产品矩阵,以适应各种规模的应用场景需求。同时,他还宣布升级了“日日新SenseNova 5.0”大模型体系,其综合能力达到与GPT-4 Turbo相当的水平。
徐立指出,在尺度定律的引领下,商汤持续推进大模型的KRE(知识-推理-执行)三层架构的研究,并在此基础上实现突破。新版的“日日新5.0”采用混合专家系统架构(MoE),经过超过10TB tokens的训练,包括大量的合成数据,其推理能力的上下文窗口可达到约200K。此次升级重点提升了模型的知识理解、数学计算、逻辑推理和编程能力。
“日日新5.0”在人文学科领域显示出卓越的创意写作、推理和总结能力。在中文知识注入后,模型能提供更精准的内容理解和问答服务,有效支持教育和内容产业等垂直市场。在理科领域,模型的数学和编程能力有了显著提升,为金融和数据分析等领域提供了坚实的技术支持。
在多模态能力方面,“日日新5.0”在MMBench多模态综合基准测试中名列前茅,并在MathVista、AI2D、ChartQA、TextVQA、DocVQA及MMMU等多模态榜单中取得领先成绩。此外,该模型支持高清长图的分析和理解,以及文图互动生成,并能进行跨文档的知识抽取与总结问答。
商汤的全栈大模型产品矩阵覆盖了终端设备使用需求,其中“商汤端侧大模型”在中端平台的推理速度可达18.3字/秒,旗舰平台则可达78.3字/秒。其扩散模型在端侧的实时推理速度不到1.5秒,支持高达1200万像素的图像输出,并具备快速的图像编辑功能,如等比放大、自由变形和旋转等。
商汤还推出了针对金融、编程、医疗和政务等领域的“商汤企业级大模型一体机”,这些产品支持千亿级模型的加速和知识检索的硬件加速,能够实现本地部署。其端云协同解决方案能够智能化地协同端云发挥各自优势,降低推理成本,提高效率。
在个人出行场景中,小米汽车SU7的智能车舱采用了商汤的大模型技术,通过端云大模型解决方案为车主提供智能化交互体验。
徐立还介绍了商汤即将推出的文生视频平台,强调了平台对人物表情、情绪和动作的高度可控性,并展示了三段完全由大模型生成的视频。未来,用户可以通过输入文本描述来生成连贯一致的视频内容,视频中的人物服饰、发型和场景都可预设,确保内容的连贯性和一致性。