全能AI，极致表现，科大讯飞，性能炸裂！

最新推荐文章于 2025-05-21 20:01:52 发布

Java小咖秀

最新推荐文章于 2025-05-21 20:01:52 发布

阅读量380

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyMDI5MzA3NQ==&mid=2247512086&idx=1&sn=92e9b1bf7657ceba581ddf5fd1b3d84b&chksm=96603b6cff67b207371efd07dd83db1de5afd61778ce3b81f68c4c124c97b10b3bf688b8ec7b&scene=126&sessionid=0

版权

我是小咖，大家中午好呀！

在国内AI大模型里，讯飞星火是处于第一阵线的，有图片生成和角色扮演功能、插件化文件生成、可以理解图片、有个性化的语音合成回复，还支持API调用等诸多特性！

今天，从朋友处获悉，近期科大讯飞又在搞事情，新老用户均可以参加！！

相对于 ChatGPT 的 API 预付费充值机制，科大讯飞这波操作必须点赞👍，绝对良心！！！

一、如何领取

今天给大家申请了一些内测体验名额，长按内测二维码，点击“免费试用”即可。

API 申请地址（复制到浏览器打开）：

https://xinghuo.xfyun.cn/sparkapi?ch=nt_api_tHMcwJ

申请 API 接入（扫码领取）

使用上面的链接，每个用户都可以免费领取 200 万 tokens

1月30日，科大讯飞正式发布了讯飞星火认知大模型V3.5。

据发布会官方介绍，讯飞星火V3.5在国产算力平台上训练，且在多项能力方面提升。在语言理解、数学能力超过GPT-4 Turbo，代码达到GPT-4 Turbo 96%，多模态理解达到GPT-4V 91%。

那么，讯飞星火3.5是否如官方所说数学能力超过GPT-4 Turbo？

我们基于SuperCLUE-Math6中文数学多步推理测评准，对讯飞星火3.5进行了客观测评。

测评环境

参考标准：SuperCLUE-Math6中文数学多步推理测评基准

评测模型：讯飞星火V3.5（官方API）

评测集：SuperCLUE-Math6评测集，2024道数学多步推理简答题。（数据集申请方式见文章末尾）

模型GenerationConfig配置：

详见讯飞星火官方说明

测评方法：

SuperCLUE-Math6（简称SC-Math6）是GSM8K的中文升级版，专门设计来评估和提升中文大模型在数学推理方面的核心能力。SuperCLUE-Math6不仅延续了GSM8K的高质量和多样性，更在难度和应用广度上进行了适当的扩充。主要有以下特点：

中文原生场景的数学推理
多轮交互下的多步推理能力考察
推理能力等级自动评定

具体详情可以参考：SuperCLUE-Math6中文数学多步推理测评基准

题目示例

问1

小明买了许多箱鸡蛋，每箱有12枚鸡蛋，他支付给卖家48元。如果小明一枚鸡蛋卖出去能赚2元，那他需要最少卖出多少箱鸡蛋才能收回成本？

解题过程：

首先，我们需要计算小明购买鸡蛋的总成本。已知他支付给卖家48元，每箱有12枚鸡蛋，所以他购买了$\dfrac{48}{12}=4$箱鸡蛋。

接下来，我们需要计算他需要卖出多少枚鸡蛋才能收回成本。已知每枚鸡蛋卖出去能赚2元，所以他需要卖出$\dfrac{48}{2}=24$枚鸡蛋。

最后，我们需要计算他需要卖出多少箱鸡蛋才能达到这个数量。因为他购买了4箱鸡蛋，每箱有12枚鸡蛋，所以他需要卖出$\dfrac{24}{12}=2$箱鸡蛋。

最终答案：【2】

追问

如果小明将每枚鸡蛋的售价提高到4元，那么他需要最少卖出多少箱鸡蛋才能收回成本？

解题过程：

首先，我们需要计算小明购买鸡蛋的总成本。已知他支付给卖家48元，每箱有12枚鸡蛋，所以他购买了$\dfrac{48}{12}=4$箱鸡蛋。

接下来，我们需要计算他需要卖出多少枚鸡蛋才能收回成本。已知每枚鸡蛋卖出去能赚4元，所以他需要卖出$\dfrac{48}{4}=12$枚鸡蛋。

最后，我们需要计算他需要卖出多少箱鸡蛋才能达到这个数量。因为他购买了4箱鸡蛋，每箱有12枚鸡蛋，所以他需要卖出$\dfrac{12}{12}=1$箱鸡蛋。

最终答案：【1】

先说结论

结论1：在SuperCLUE-Math6上，相比上一代讯飞星火V3.0，讯飞星火V3.5有43.05分的巨大提升；尤其在5步数学推理问题上表现不俗。

结论2：在SuperCLUE-Math6上，讯飞星火V3.5综合得分为80.44，被评为最高第五等级。

结论3：在SuperCLUE-Math6上，讯飞星火V3.5较GPT4略低3.42分，较GPT4-1106-Preview（GPT4-Turbo）低7.32分，超越GPT-4 Turbo还需继续努力。

以下是我们从定量和定性两个角度对模型进行的测评分析。

星火大模型V3.5发放10万tokens免费测试，快来和我一起领取试用吧！

接入星火 API

申请 API 接入（扫码）

开发代码接入

如果你想通过 Web API 接入可以看官网的文档：

https://www.xfyun.cn/doc/spark/Web.html

每个不同的大模型版本都是独立计量 tokens 的，参数几乎一致，只需要换一下接口地址即可：

Github 上也有一些对 Web API 进行了封装的项目，接入会更加的便捷：

项目地址：https://github.com/HildaM/sparkdesk-api

星火3.5 能力如何？

1. 评测

从 SuperCLUE-Math6 的评测结果来看，讯飞星火 3.5 API 在 3.0 的基础上有了大幅提升，推理能力和综合得分上已经和 GPT4 相差无几了，在中文领域甚至会更强一点。

PS: SuperCLUE-Math6（简称SC-Math6）是GSM8K的中文升级版，专门设计来评估和提升中文大模型在数学推理方面的核心能力。

2. 外部插件调用

官网介绍:

星火大模型API引入了一种高效的机制，允许开发者通过描述性的函数调用来集成外部工具和API。这种集成通过构造结构化的JSON对象实现，使星火能够智能地与外部服务进行交互。

简单说目前允许你通过 API 传参控制进行调用外部服务，比如智能天气应用，需要查询实时天气，股票分析应用，需要查询最新股价等。

目前提供了六个内置插件：天气、股票、日期等

3、图片识别 & 绘画能力

提示词: 秋日麦田，辽阔，充满色彩，低像素卡通

效果如下：

提示词: 有色彩的水墨画两岸猿声啼不住

效果如下：

4、丰富的AI 助手

在星火的网页端可以看到上千个 AI 助手，每一个 AI 助手都是大模型能力在具体的细分领域的应用，可以帮助我们快速完成一些生产任务。

目前看，未来应用可能都会被大模型改造一轮，大家日常学编程、做项目不知道做什么的话，不妨试试接入星火 API，做一些“有趣、有用”的 AI 小应用。

这个 API 额度，不管现在用不用的上，都可以先领取了，占个位置，方便后续使用，机会不多！！拿来练手AI应用开发很不错～

API 申请地址（复制到浏览器打开）：

https://xinghuo.xfyun.cn/sparkapi?ch=nt_api_tHMcwJ

申请 API 接入（扫码领取）

使用上面的链接，每个用户都可以免费领取 200 万 tokens

点击阅读原文，领取Token免费包，一起来玩转大模型API

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。