AI“语速”知多少?基于云拨测的国产大模型使用体验测评!

本文介绍了使用火山引擎云拨测产品对大语言模型进行“语速”测评的结果和过程,主要内容分为以下4部分:

  1. 影响AI“语速”的指标

  2. 对主流大模型单轮对话AI“语速”测评结果

  3. 如何使用云拨测监测AI“语速”

  4. 火山引擎云拨测介绍

当今时代,LLM(Large Language Model)大语言模型技术不断推动着生成式AI(Generative Artificial Intelligence)飞速发展,不论是在智能对话系统、虚拟助手、翻译领域,还是在个性化推荐、营销领域,AI都展现出了惊人的效果和巨大的潜力。

随着厂商不断增多,针对大模型的测评也层出不穷,有测评准确性的、有让它们参加高考的、还有让它们写新闻的。今天的测评和你之前见过的都不一样,我们会使用火山引擎云拨测产品来测一测AI“语速”。

影响AI“语速”的指标

测评开始之前,我们需要确定控制AI“语速”的因素。大语言模型的生成过程是基于已生成的部分逐步预测下一个词汇,为了适应大模型的工作特性,应用层面通常采用Server-Sent Events(SSE)来保证模型输出的词句快速传递到用户侧,让用户感受到AI流畅的“语速”。

SSE是一种基于HTTP协议的实时数据推送技术,通过维持一个HTTP的长连接,SSE实现了服务器主动向客户端推送更新,增强了传统HTTP应用Request - Response通信模型的实时性,使客户端能够直接接收服务端的最新数据,无需轮询。

这个过程中,有3个指标直接影响用户体验:

  1. 首包时延:用户发送请求后收到Reponse Header第一个字节的耗时,即AI对用户的问题是否“立刻作答”;

  2. 接收时间:通常用来衡量网络传输速度,但使用SSE协议传输的大模型应用是一边处理,一边回复,因此接收时间也能衡量大模型的推理速度,即AI回答用户问题是否“吞吞吐吐”;

  3. 整体时延:AI逐字词回复时,首包时延、接收时间、输出给用户的累计耗时,即AI回答用户问题是否“快且准”。

图片

这3个指标正是我们使用火山引擎云拨测来测评AI“语速”的关键。

主流大模型单轮对话 AI “语速”测评

此次测评选取了4款国产大模型,为求准确,都选取了支持长文本的模型对比。火山引擎云拨测通过大模型服务的单轮对话OpenAPI执行HTTP拨测任务,通过对大模型提出问题,围绕首包时延、接收时间、整体时延3个重要观测指标进行测评。

测试结果如下:

  • 首包时延:模型D和模型B表现较好,其次是模型C、模型A

图片

  • 接收时间:表现排名依次为模型C、模型D、模型A、模型B

图片

在测评接收时间时,我们有一个重要发现!模型C接收数据耗时非常短,不到1ms,因此我们推测模型C使用了某种缓存机制,同样的问题不会重复经过AI推理,而是直接返回缓存的答案,感兴趣的小伙伴也可以试试自己测评,测评教程可见后文。

  • 整体时延:模型C和模型D表现较好,其次是模型B、模型A

图片

测评总结

综合来看,只看整体时延,虽然模型C的表现最好,但是考虑到它可能应用某种缓存机制,从真实推理性能考虑,模型D表现最佳。模型A的大模型服务无论从推理性能还是网络性能都位于末流。

当然本次测评只从“语速”层面出发,属于大模型使用体验中的一部分,更多关于大模型的语义理解、知识库、回答合理性等复杂体验组合在一起才能组成完整的AI使用体验。

如果好奇此次测评选取的大模型都是哪些,你可以免费试用火山引擎云拨测产品,成为大模型的测评官。

如何使用云拨测监测AI“语速”

火山引擎云拨测可以模拟全球用户在不同场景下的访问请求,周期性的监测用户终端到服务端的服务可用性、应用的稳定性和网络质量,支持HTTP,TCP/UDP,DNS等多种网络协议。

对话类应用广泛使用的SSE协议本质上是HTTP请求,因此可以通过云拨测的HTTP协议拨测来分析其性能。通过火山引擎云拨测的即时拨测功能,可以探测使用SSE协议的大模型对话接口,具体教程如下。

  • 首先进入即时拨测创建页面,选择单协议->HTTP协议

图片

  • 在高级配置中,可以填写所需的HTTP方法和Request Body内容,请求头中,可以填写必要的鉴权信息

图片

  • 在任务目标中,填写探测URL,断言可以使用默认的配置

图片

  • 最后选择所需要发起探测的区域用来模拟真实用户所在网络环境,如下

图片

  • 最后点击运行任务即可发起探测。

任务运行后,可以在任务分析页面看到当前探测的情况,包含了HTTP协议相关的丰富的统计数据。

图片

通过详情页面,还可以进一步了解接口的返回内容详情。

图片

图片

这里我们可以清楚看到接口使用了SSE推送数据,消息格式也是符合标准的。

火山引擎云拨测

火山引擎云拨测是依托于字节跳动19亿用户业务下的数字体验监控最佳实践,以及基于全球分布的基础设施优势而打造的一款拨测产品。

图片

通过分布在全球各地的监测节点来模拟用户访问云服务,火山引擎云拨测实现端到端的网络可用性、稳定性以及用户体验的可观测。帮助使用者快速发现、定位和诊断网络服务问题,提升用户体验。火山引擎云拨测拥有以下优势:

  • 覆盖全球的节点资源:云拨测支持全球范围的网络监测。1200+ 监测节点覆盖了全球范围的不同城市、不同运营商。同时支持私有监测节点的部署。

  • 开箱即用,低成本接入:云拨测提供可视化的控制台。无需研发介入,对业务代码、技术架构无侵入。

  • 多维分析诊断:交互式的图表,带来灵活的多维度对比下专业的分析诊断体验。

  • 智能报警:基于多维度、多指标、智能基线进行实时异常检测,支持多渠道通知您的团队,降低MTTR。

  • 最佳实践:云拨测已帮助火山引擎多个云服务、飞书等技术团队监控网络质量,定位网络故障,协助提高服务可靠性,成为网络监控的最佳实践。

▼活动推荐▼

目前火山引擎云拨测优惠活动进行中,不仅可以免费试用,还能享受买多少送多少、资源包限时 5 折的优惠!快去火山引擎官网免费申请试用~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值