笔者的知识星球有朋友提问:
公司在内网部署了 DeepSeek,需要开发一个 SAP UI5 应用,通过 API 方式调用这个本地 DeepSeek,将其结果通过 Streaming 方式渲染在 SAP UI5 应用界面上。
关于私有方式部署 DeepSeek,笔者之前的文章曾经介绍过:
使用腾讯 HAI 5 分钟内部署一个私人定制的 DeepSeek
大家每天使用 DeepSeek 和 ChatGPT 这些大模型的网页版时,发送 Prompt 之后,看到的回复,都是通过 Streaming(流)式方式返回的。
为什么我们需要 API 的流式响应?
大模型一次推理往往包含成千上万个 token,如果等待完整响应到达浏览器再渲染,用户将感受到明显卡顿。
流式响应则能够让客户端在服务器仍在推理时,就能持续收到增量 token,显著降低首字节延迟,显著提升了用户体验。
流式响应场景需要服务器 API 端和客户端共同的支持才能实现。有朋