Ollama上面新发的Model:deepseek-V2,pull下来。
使用ollama运行deepseek-V2,没有成功。查了半天,怀疑是OLLAMA_FLASH_ATTENTION设置的问题。
前面听说开启Flash Attention可以来加速计算和节省显存。所以我在环境变量里面开了设置:
OLLAMA_FLASH_ATTENTION=1
OLLAMA_NUM_PARALLEL=16
OLLAMA_FLASH_ATTENTION=1 ,开启Flash Attention。
OLLAMA_NUM_PARALLEL=16 ,设置并行。
设置好以后,通过ollama运行其他的Model,比如qwen2,都能正常启动没啥问题。不过到了deepseek-V2,直接无法启动。
试了几次,环境变量去掉OLLAMA_FLASH_ATTENTION=1 ,模型启动正常。