我是小咖,大家中午好呀!
在国内AI大模型里,讯飞星火是处于第一阵线的,有图片生成和角色扮演功能、插件化文件生成、可以理解图片、有个性化的语音合成回复,还支持API调用等诸多特性!
今天,从朋友处获悉,近期科大讯飞又在搞事情,新老用户均可以参加!!
相对于 ChatGPT 的 API 预付费充值机制,科大讯飞这波操作必须点赞👍,绝对良心!!!
一、如何领取
今天 给大家申请了一些内测体验名额,长按内测二维码,点击“免费试用”即可。
API 申请地址(复制到浏览器打开):
https://xinghuo.xfyun.cn/sparkapi?ch=nt_api_tHMcwJ
申请 API 接入(扫码领取)
使用上面的链接,每个用户都可以免费领取 200 万 tokens
1月30日,科大讯飞正式发布了讯飞星火认知大模型V3.5。
据发布会官方介绍,讯飞星火V3.5在国产算力平台上训练,且在多项能力方面提升。在语言理解、数学能力超过GPT-4 Turbo,代码达到GPT-4 Turbo 96%,多模态理解达到GPT-4V 91%。
那么,讯飞星火3.5是否如官方所说数学能力超过GPT-4 Turbo?
我们基于SuperCLUE-Math6中文数学多步推理测评准,对讯飞星火3.5进行了客观测评。
测评环境
参考标准:SuperCLUE-Math6中文数学多步推理测评基准
评测模型:讯飞星火V3.5(官方API)
评测集:SuperCLUE-Math6评测集,2024道数学多步推理简答题。(数据集申请方式见文章末尾)
模型GenerationConfig配置:
详见讯飞星火官方说明
测评方法:
SuperCLUE-Math6(简称SC-Math6)是GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力。SuperCLUE-Math6不仅延续了GSM8K的高质量和多样性,更在难度和应用广度上进行了适当的扩充。主要有以下特点:
中文原生场景的数学推理
多轮交互下的多步推理能力考察
推理能力等级自动评定
具体详情可以参考:SuperCLUE-Math6中文数学多步推理测评基准
题目示例
问1
小明买了许多箱鸡蛋,每箱有12枚鸡蛋,他支付给卖家48元。如果小明一枚鸡蛋卖出去能赚2元,那他需要最少卖出多少箱鸡蛋才能收回成本?
解题过程:
首先,我们需要计算小明购买鸡蛋的总成本。已知他支付给卖家48元,每箱有12枚鸡蛋,所以他购买了$\dfrac{48}{12}=4$箱鸡蛋。
接下来,我们需要计算他需要卖出多少枚鸡蛋才能收回成本。已知每枚鸡蛋卖出去能赚2元,所以他需要卖出$\dfrac{48}{2}=24$枚鸡蛋。
最后,我们需要计算他需要卖出多少箱鸡蛋才能达到这个数量。因为他购买了4箱鸡蛋,每箱有12枚鸡蛋,所以他需要卖出$\dfrac{24}{12}=2$箱鸡蛋。
最终答案:【2】
追问
如果小明将每枚鸡蛋的售价提高到4元,那么他需要最少卖出多少箱鸡蛋才能收回成本?
解题过程:
首先,我们需要计算小明购买鸡蛋的总成本。已知他支付给卖家48元,每箱有12枚鸡蛋,所以他购买了$\dfrac{48}{12}=4$箱鸡蛋。
接下来,我们需要计算他需要卖出多少枚鸡蛋才能收回成本。已知每枚鸡蛋卖出去能赚4元,所以他需要卖出$\dfrac{48}{4}=12$枚鸡蛋。
最后,我们需要计算他需要卖出多少箱鸡蛋才能达到这个数量。因为他购买了4箱鸡蛋,每箱有12枚鸡蛋,所以他需要卖出$\dfrac{12}{12}=1$箱鸡蛋。
最终答案:【1】
先说结论
结论1:在SuperCLUE-Math6上,相比上一代讯飞星火V3.0,讯飞星火V3.5有43.05分的巨大提升;尤其在5步数学推理问题上表现不俗。
结论2:在SuperCLUE-Math6上,讯飞星火V3.5综合得分为80.44,被评为最高第五等级。
结论3:在SuperCLUE-Math6上,讯飞星火V3.5较GPT4略低3.42分,较GPT4-1106-Preview(GPT4-Turbo)低7.32分,超越GPT-4 Turbo还需继续努力。
以下是我们从定量和定性两个角度对模型进行的测评分析。
星火大模型V3.5发放10万tokens免费测试,快来和我一起领取试用吧!
接入星火 API
申请 API 接入(扫码)
开发代码接入
如果你想通过 Web API 接入 可以看官网的文档:
https://www.xfyun.cn/doc/spark/Web.html
每个不同的大模型版本都是独立计量 tokens 的,参数几乎一致,只需要换一下接口地址即可:
Github 上也有一些对 Web API 进行了封装的项目,接入会更加的便捷:
项目地址:https://github.com/HildaM/sparkdesk-api
星火3.5 能力如何?
1. 评测
从 SuperCLUE-Math6 的评测结果来看,讯飞星火 3.5 API 在 3.0 的基础上有了大幅提升,推理能力和综合得分上已经和 GPT4 相差无几了,在中文领域甚至会更强一点。
PS: SuperCLUE-Math6(简称SC-Math6)是GSM8K的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力。
2. 外部插件调用
官网介绍:
星火大模型API引入了一种高效的机制,允许开发者通过描述性的函数调用来集成外部工具和API。这种集成通过构造结构化的JSON对象实现,使星火能够智能地与外部服务进行交互。
简单说目前允许你通过 API 传参控制进行调用外部服务,比如智能天气应用,需要查询实时天气,股票分析应用,需要查询最新股价等。
目前提供了六个内置插件:天气、股票、日期等

3、图片识别 & 绘画能力
提示词: 秋日麦田,辽阔,充满色彩,低像素卡通
效果如下:
提示词: 有色彩的水墨画两岸猿声啼不住
效果如下:
4、丰富的AI 助手
在星火的网页端可以看到上千个 AI 助手,每一个 AI 助手都是大模型能力在具体的细分领域的应用,可以帮助我们快速完成一些生产任务。
目前看,未来应用可能都会被大模型改造一轮,大家日常学编程、做项目不知道做什么的话,不妨试试接入星火 API,做一些“有趣、有用”的 AI 小应用。
这个 API 额度,不管现在用不用的上,都可以先领取了,占个位置,方便后续使用,机会不多!!拿来练手AI应用开发很不错~
API 申请地址(复制到浏览器打开):
https://xinghuo.xfyun.cn/sparkapi?ch=nt_api_tHMcwJ
申请 API 接入(扫码领取)
使用上面的链接,每个用户都可以免费领取 200 万 tokens
点击阅读原文,领取Token免费包,一起来玩转大模型API