全能AI,极致表现,科大讯飞,性能炸裂!

我是小咖,大家中午好呀!

在国内AI大模型里,讯飞星火是处于第一阵线的,有图片生成和角色扮演功能、插件化文件生成、可以理解图片、有个性化的语音合成回复,还支持API调用等诸多特性!

775224a675cb5b43fbfb4632285ce8f4.png

今天,从朋友处获悉,近期科大讯飞又在搞事情,新老用户均可以参加!!

相对于 ChatGPT 的 API 预付费充值机制,科大讯飞这波操作必须点赞👍,绝对良心!!!

一、如何领取

今天 给大家申请了一些内测体验名额,长按内测二维码,点击“免费试用”即可。1818ac0e27e3bfc2fbc2b713b951fec1.png

API 申请地址(复制到浏览器打开):

https://xinghuo.xfyun.cn/sparkapi?ch=nt_api_tHMcwJ

申请 API 接入(扫码领取)

365cae621f5b35d55ac174ed87c239c0.png

使用上面的链接,每个用户都可以免费领取 200 万 tokens

1月30日,科大讯飞正式发布了讯飞星火认知大模型V3.5。

1cefefc15dd635d7261b79599f871b12.png

据发布会官方介绍,讯飞星火V3.5在国产算力平台上训练,且在多项能力方面提升。在语言理解、数学能力超过GPT-4 Turbo,代码达到GPT-4 Turbo 96%,多模态理解达到GPT-4V 91%。

那么,讯飞星火3.5是否如官方所说数学能力超过GPT-4 Turbo?

我们基于SuperCLUE-Math6中文数学多步推理测评准,对讯飞星火3.5进行了客观测评。

测评环境

参考标准:SuperCLUE-Math6中文数学多步推理测评基准

评测模型:讯飞星火V3.5(官方API)

评测集:SuperCLUE-Math6评测集,2024道数学多步推理简答题。(数据集申请方式见文章末尾)

模型GenerationConfig配置:

详见讯飞星火官方说明

测评方法

SuperCLUE-Math6(简称SC-Math6)是GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力。SuperCLUE-Math6不仅延续了GSM8K的高质量和多样性,更在难度和应用广度上进行了适当的扩充。主要有以下特点:

  • 中文原生场景的数学推理

  • 多轮交互下的多步推理能力考察

  • 推理能力等级自动评定

3c478dc58a8f4ee8e273ced87c3b2a39.jpeg

具体详情可以参考:SuperCLUE-Math6中文数学多步推理测评基准

题目示例

问1

小明买了许多箱鸡蛋,每箱有12枚鸡蛋,他支付给卖家48元。如果小明一枚鸡蛋卖出去能赚2元,那他需要最少卖出多少箱鸡蛋才能收回成本?

解题过程:

首先,我们需要计算小明购买鸡蛋的总成本。已知他支付给卖家48元,每箱有12枚鸡蛋,所以他购买了$\dfrac{48}{12}=4$箱鸡蛋。

接下来,我们需要计算他需要卖出多少枚鸡蛋才能收回成本。已知每枚鸡蛋卖出去能赚2元,所以他需要卖出$\dfrac{48}{2}=24$枚鸡蛋。

最后,我们需要计算他需要卖出多少箱鸡蛋才能达到这个数量。因为他购买了4箱鸡蛋,每箱有12枚鸡蛋,所以他需要卖出$\dfrac{24}{12}=2$箱鸡蛋。

最终答案:【2】

追问

如果小明将每枚鸡蛋的售价提高到4元,那么他需要最少卖出多少箱鸡蛋才能收回成本?

解题过程:

首先,我们需要计算小明购买鸡蛋的总成本。已知他支付给卖家48元,每箱有12枚鸡蛋,所以他购买了$\dfrac{48}{12}=4$箱鸡蛋。

接下来,我们需要计算他需要卖出多少枚鸡蛋才能收回成本。已知每枚鸡蛋卖出去能赚4元,所以他需要卖出$\dfrac{48}{4}=12$枚鸡蛋。

最后,我们需要计算他需要卖出多少箱鸡蛋才能达到这个数量。因为他购买了4箱鸡蛋,每箱有12枚鸡蛋,所以他需要卖出$\dfrac{12}{12}=1$箱鸡蛋。

最终答案:【1】

先说结论

结论1:在SuperCLUE-Math6上,相比上一代讯飞星火V3.0,讯飞星火V3.5有43.05分的巨大提升;尤其在5步数学推理问题上表现不俗。

结论2:在SuperCLUE-Math6上,讯飞星火V3.5综合得分为80.44,被评为最高第五等级。

结论3:在SuperCLUE-Math6上,讯飞星火V3.5较GPT4略低3.42分,较GPT4-1106-Preview(GPT4-Turbo)低7.32分,超越GPT-4 Turbo还需继续努力。

be23d36e02386808e548afcaf4cf73d8.png

以下是我们从定量和定性两个角度对模型进行的测评分析。


星火大模型V3.5发放10万tokens免费测试,快来和我一起领取试用吧!

643148eb54c6c7f3c20b450083b3fb61.png

256d4bc12c1788837a64a162ba22ead6.png

接入星火 API

申请 API 接入(扫码)

19de4624870098b470ffbdd7d1a96981.png

开发代码接入

如果你想通过 Web API 接入 可以看官网的文档:

https://www.xfyun.cn/doc/spark/Web.html

每个不同的大模型版本都是独立计量 tokens 的,参数几乎一致,只需要换一下接口地址即可:

5d442c8bcfb6fd1145bc6118c96c0bcb.png

Github 上也有一些对 Web API 进行了封装的项目,接入会更加的便捷:

f4903511d5e9066bd6edc2b6a452fc51.png

项目地址:https://github.com/HildaM/sparkdesk-api

星火3.5 能力如何?

1. 评测

从 SuperCLUE-Math6 的评测结果来看,讯飞星火 3.5 API 在 3.0 的基础上有了大幅提升,推理能力和综合得分上已经和 GPT4 相差无几了,在中文领域甚至会更强一点。

PS: SuperCLUE-Math6(简称SC-Math6)是GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力。

2. 外部插件调用

官网介绍:

星火大模型API引入了一种高效的机制,允许开发者通过描述性的函数调用来集成外部工具和API。这种集成通过构造结构化的JSON对象实现,使星火能够智能地与外部服务进行交互。

简单说目前允许你通过 API 传参控制进行调用外部服务,比如智能天气应用,需要查询实时天气,股票分析应用,需要查询最新股价等。

目前提供了六个内置插件:天气、股票、日期等

871b40c107ea2361a1a6c24afe20d939.png

3、图片识别 & 绘画能力

提示词: 秋日麦田,辽阔,充满色彩,低像素卡通

效果如下:

1c553683701e045902f48eae976ab802.png

提示词: 有色彩的水墨画两岸猿声啼不住

效果如下:

d6c0f53e417bc959379a43668c420aa9.png

4、丰富的AI 助手

在星火的网页端可以看到上千个 AI 助手,每一个 AI 助手都是大模型能力在具体的细分领域的应用,可以帮助我们快速完成一些生产任务。

bbd4d5a8ecf4217c2126cd99ecc34d02.png

目前看,未来应用可能都会被大模型改造一轮,大家日常学编程、做项目不知道做什么的话,不妨试试接入星火 API,做一些“有趣、有用”的 AI 小应用。

这个 API 额度,不管现在用不用的上,都可以先领取了,占个位置,方便后续使用,机会不多!!拿来练手AI应用开发很不错~

API 申请地址(复制到浏览器打开):

https://xinghuo.xfyun.cn/sparkapi?ch=nt_api_tHMcwJ

申请 API 接入(扫码领取)

e344303d827941e1b918ef60b78067f1.png

使用上面的链接,每个用户都可以免费领取 200 万 tokens

e9a54d8b3e2f2bb90d4c0f5bcfa0ab1c.gif   点击阅读原文,领取Token免费包,一起来玩转大模型API42b17d513b17d4a3f6a482a298dc2ca5.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值