通过ollama本地化部署deepseek后，通过API方式请求特别的慢

最新推荐文章于 2025-03-04 20:50:43 发布

初夏0811

最新推荐文章于 2025-03-04 20:50:43 发布

阅读量929

点赞数 4

分类专栏：大模型文章标签：大模型 deepseek ollama

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37899908/article/details/146001085

版权

大模型专栏收录该内容

19 篇文章

订阅专栏

通过ollama本地化部署deepseek后，通过API方式请求特别的慢

一、现象
二、原因分析

一、现象

deepseek火了之后，本地私有化部署大模型的门槛大大降低，即使是在家里的windows电脑，也非常简单就可以安装大模型并且使用，最近在公司服务器上通过ollama部署了一个deepseek-r1:1.5b大模型后，通过ollama run deepseek-r1:1.5b命令启动了，在其终端命令窗口对话，回复很快，一般就几秒钟就可以流式的返回，但是项目中是通过API访问本地大模型的，对接好API后发现，请求一次响应速度非常慢，3~5分钟才回复。

二、原因分析

通过升级服务器配置到32c64G,调用大模型后查看内存和CPU发现，内存用了大概10G,CPU飚到1600%，但也可以返回。

说明在控制终端请求是没问题的，那么模型是可以跑的，那API为什么这么慢呢？

我在服务器通过curl 命令，构建好请求参数，直接在服务器上执行，发现也只需要几秒钟就陆续的返回和打印了流的结果，那么说明API接口服务也是没有问题的，正常的。

那么问题出现在哪？

我怀疑是不是流式与非流式返回的区别，因为在终端命令和服务器curl执行请求，都是默认的流式的返回结构，速度正常，而我项目中的http请求默认的是非流式的返回结果的。

于是，我把代码中改成流式的返回：stream:true 传参过去，果然，速度很快就返回了流。

那么，问题原因就找到了，就是因为流式返回快，非流式需要等所有结果都生成了一次性返回，所以很慢。

其实，有个问题还是很奇怪，即使非流式慢，那么，理论上，非流式返回的时间应该大概等于流式返回情况下，所有流返回的总耗时吧，但是，实际却是，非流式返回的时间远远大于流式返回耗时之和，不知道大模型处理了什么，反正是个黑盒子，也没办法找到原因，欢迎知道原因的大佬留言，有偿感谢~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

初夏0811 你的鼓励将是我创作最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。