国产大模型的逆袭:技术路径的策略与实践

探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活

一.聚焦长文本,国产大模型已有赶超GPT之势

1.1 理科能力差距较大,注重文科能力的提升

整体比较而言,国内大模型与GPT-4(官网)尚存在明显差距,但个别能力上已展现出优势。
  • 理科能力差距明显。除通义千问2.1的工具使用能力较高,其它国内大模型的得分均低于GPT-4(官网)。
  • 文科能力差异缩小。GPT-4在语义理解中保持优势,国内大模型在其他能力上表现出色。
  • 通义千问2.1:在知识百科、长文本、角色扮演和生成与创作等具有突出优势,得分较GPT-4高。
  • Kimi:kimi在长文本能力上表现出色,与GPT-4的较量中得分占优。
标题图表:国内外最新大模型的综合能力比较

1.2 国内大模型长文本能力部分赶超GPT-4

大模型的长文本能力已经成为了重要的竞争力,国内长文本能力赶超了部分国外大模型。
  • 国内大模型厂商布局长文本能力。长文本能力被视为大模型竞争的重要性能指标。通义千问、360的智脑、文心一言开放长文本能力。
  • 国内头部企业展现出较强的竞争。根据基准测评报告,通义千问凭借71.8分成为全球大模型中唯一超过70分的大模型,而kimichat和山海大模型则占据第四和第五的席位。在前32名中,有20个席位被国内大模型占据。
标题图表:国内外最新大模型的长文本能力比较
Kimi率先在国内掀起大模型长文本竞赛。3月18日,月之暗面宣布在大模型长上下文窗口技术上取得突破:Kimi智能助手从支持20万字直接到支持200万字超长无损上下文,并于即日起开启产品“内测”。受此消息影响,百度、阿里等国产大模型龙头厂商陆续宣布大模型迭代进展,打响百万文本上下文竞赛。3月22日晚间,阿里的通义千问官宣升级,向所有人免费开放1000万字的长文档处理功能;360紧随其后,360智脑正式内测500万字长文本处理功能,即将入驻360AI浏览器;百度在4月将对文心一言进行升级,届时也将开放长文本能力,文本范围在200万-500万。

对比海外龙头:1)5月谷歌发布的最新Gemini 1.5 pro、1.5 flash分别支持200万(理论极限1000万)、100万(开发人员可尝试注册200万)token;2)6月,Claude 3.5Sonnet支持20万token;3)GPT-4 Turbo支持12.8万token。
标题图表:国内外主流大模型的长文本能力比较 <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值