〔探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活〕
一.聚焦长文本,国产大模型已有赶超GPT之势
1.1 理科能力差距较大,注重文科能力的提升
整体比较而言,国内大模型与GPT-4(官网)尚存在明显差距,但个别能力上已展现出优势。
- 理科能力差距明显。除通义千问2.1的工具使用能力较高,其它国内大模型的得分均低于GPT-4(官网)。
- 文科能力差异缩小。GPT-4在语义理解中保持优势,国内大模型在其他能力上表现出色。
- 通义千问2.1:在知识百科、长文本、角色扮演和生成与创作等具有突出优势,得分较GPT-4高。
- Kimi:kimi在长文本能力上表现出色,与GPT-4的较量中得分占优。

1.2 国内大模型长文本能力部分赶超GPT-4
大模型的长文本能力已经成为了重要的竞争力,国内长文本能力赶超了部分国外大模型。
- 国内大模型厂商布局长文本能力。长文本能力被视为大模型竞争的重要性能指标。通义千问、360的智脑、文心一言开放长文本能力。
- 国内头部企业展现出较强的竞争。根据基准测评报告,通义千问凭借71.8分成为全球大模型中唯一超过70分的大模型,而kimichat和山海大模型则占据第四和第五的席位。在前32名中,有20个席位被国内大模型占据。

Kimi率先在国内掀起大模型长文本竞赛。3月18日,月之暗面宣布在大模型长上下文窗口技术上取得突破:Kimi智能助手从支持20万字直接到支持200万字超长无损上下文,并于即日起开启产品“内测”。受此消息影响,百度、阿里等国产大模型龙头厂商陆续宣布大模型迭代进展,打响百万文本上下文竞赛。3月22日晚间,阿里的通义千问官宣升级,向所有人免费开放1000万字的长文档处理功能;360紧随其后,360智脑正式内测500万字长文本处理功能,即将入驻360AI浏览器;百度在4月将对文心一言进行升级,届时也将开放长文本能力,文本范围在200万-500万。
对比海外龙头:1)5月谷歌发布的最新Gemini 1.5 pro、1.5 flash分别支持200万(理论极限1000万)、100万(开发人员可尝试注册200万)token;2)6月,Claude 3.5Sonnet支持20万token;3)GPT-4 Turbo支持12.8万token。
