deepseek-V2 开不了OLLAMA_FLASH_ATTENTION

最新推荐文章于 2024-07-19 16:36:18 发布

KikinLee

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量208

点赞数 2

分类专栏： More 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kikinweb/article/details/139955693

版权

More 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Ollama上面新发的Model：deepseek-V2，pull下来。

使用ollama运行deepseek-V2，没有成功。查了半天，怀疑是OLLAMA_FLASH_ATTENTION设置的问题。

前面听说开启Flash Attention可以来加速计算和节省显存。所以我在环境变量里面开了设置：

OLLAMA_FLASH_ATTENTION=1
OLLAMA_NUM_PARALLEL=16

OLLAMA_FLASH_ATTENTION=1 ，开启Flash Attention。
OLLAMA_NUM_PARALLEL=16 ，设置并行。

设置好以后，通过ollama运行其他的Model，比如qwen2，都能正常启动没啥问题。不过到了deepseek-V2，直接无法启动。

试了几次，环境变量去掉OLLAMA_FLASH_ATTENTION=1 ，模型启动正常。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
deepseek-V2 开不了OLLAMA_FLASH_ATTENTION

设置好以后，通过ollama运行其他的Model，比如qwen2，都能正常启动没啥问题。不过到了deepseek-V2，直接无法启动。前面听说开启Flash Attention可以来加速计算和节省显存。OLLAMA_FLASH_ATTENTION=1 ，开启Flash Attention。Ollama上面新发的Model：deepseek-V2，pull下来。使用ollama运行deepseek-V2，没有成功。OLLAMA_NUM_PARALLEL=16 ，设置并行。试了几次，环境变量去掉。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。