[AI]如何在本地windows运行llama模型（CPU可运行）

最新推荐文章于 2024-08-07 15:29:13 发布

楚灵魈

最新推荐文章于 2024-08-07 15:29:13 发布

阅读量683

点赞数 24

分类专栏： AI 文章标签： llama gpu算力 gpt

本文链接：https://blog.csdn.net/c858845275/article/details/140591902

版权

AI 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、为什么我们要在本地运行llama模型？

想必大家已经体验过GPT， Claude，亦或是国内开源的GLM，这些强大的模型了，但是这些大模型虽然强大但有的要么收费，要么在本地部署对硬件要求高，要么就是本地部署的配置繁琐，对小白很不友好。所以，综上所述，llama模型可能是最适合小白的本地部署模型。小白只需要像正常安装软件那样，安装一个软件就可以部署llama模型。

二、一些碎碎念

这次的部署并不会太难，哪怕没有编程基础的小白也能够自己部署，既然是这样，那我也没有太多叮嘱的，大家跟着操作就行。如果大家遇到问题，可以考虑重新跟着我操作，或者看看别的大佬给出的解决办法。如果你已经准备好了，那么我们就开始操作吧！

三、什么是ollama

在本次llama模型部署过程中，我们需要下载一个名为ollama的软件。简单来说，ollama是一个大语言模型本地运行的工具，它解决了底层的很多兼容性问题，这使得我们可以在安装ollama以后直接在ollama的环境下运行大语言模型！

四、安装ollama

我们首先使用Bing浏览器搜索ollama:

第一个网址就是ollama的官网，如果你并没有搜索到和我一样的网站，那可以直接输入ollama的官网网址：Ollama

打开ollama网站可以看到网页中的“Download”,我们点击它：

点击以后来到一个下载的选择页面：

我们可以先点击windows图标，然后再点击“Download for Windows (Preview)”,按钮，等待一会儿浏览器就会弹出下载了。

我们将ollama的安装程序下载到一个我们能找到的地方。

这是下载好以后的样子：

我们双击启动：

启动以后，我们点击窗口右下角的“Install”：

点击以后开始安装，它会默认安装再C盘并且路径无法修改。

我们等待进度条走完。

安装完成以后windows右下角弹出了提示，告诉我们ollama正在运行。

我们使用"win+R"键，在弹出的运行框中输入“powershell”回车。

如上图，我们的"powershell已经启动"，当然你的“powershell”的颜色可能和我的不一样，这不影响，只要你确定你启动的是“powershell”就行。怎么确定呢，你可以看到启动的软件左上角有“powershell”的字样，那么这就是“powershell”。

想必现在你已经启动“powershell”了，我们在“powershell”中输入ollama回车。

如果你看到有下面这些输出时就表示你的ollama已经安装成功了。

五、添加大模型并且运行

我们可以去到Hugging Face网站下载llama大模型。我们打开：huggingface.co

在打开网站时，你可能会遇到因为网络问题而打不开的情况，请自己找一下解决办法哦，或者你可以跳过这个步骤，并且直接使用我下面给出的命令。去到Hugging Face也只是为了获取模型的下载命令。

好的我们打开网站以后看到如下界面：

我们点击网页中的“Models”：

点击以后看到如下界面：

我们点击搜索框，并且输入“llama”并且回车。

我们可以看到这个模型有一个被微调过的中文模型，当然，如果你不想使用这个模型，也可以选择别的。

可能大家已经注意到了一个东西，这些模型后面都有“7b”,“8b”,“70b”等字样，这些都是什么意思呢？其实这些表示的是模型的参数数量，b表示的是十亿，所以这里的“7b”就表示这个模型有70亿个参数。当然我们选择模型并不是参数越多越好，参数越多往往伴随着对电脑的负载越高对显卡显存的占用越大。

下面是一些我实际测试我结果:

使用4060 8G版本运行一个量化过的llama4b大模型，回复速度与正常的网络模型无异。

使用E5 2680v2进行运行一个量化过的llama4b大模型，能够正常回复，但是速度很慢，一秒钟大概3个字。

另外，由于ollama软件是软件自己配置环境，如果你没有英伟达的较新版显卡或者没有显卡，那么它大概率会让你的模型运行在你的CPU上。如果你使用的是AMD的较新款显卡，那么ollama可能会使用rocm技术帮你把模型运行在AMD的显卡上。

在英伟达的显卡上运行量化过的llama4b模型，显存大约占用6G，如果你是8G显存，那么你也可以尝试8b模型（我没有试过......）

好的，想必你已经选择好你的模型了，点进你想运行的模型，我就以刚才框出的中文模型为例：

往下滑可以看到，它告诉我们运行这些指令就可以运行对应的模型了：

我们复制一条指令，我这里就用4b模型的指令举例，刚才打不开官网的小伙伴就和我用同样的指令吧！

ollama run wangshenzhi/llama3-8b-chinese-chat-ollama-q4

我们将这条指令复制到“powershell”中。注意，这里运行模型必须要在ollama安装好并且在“powershell”中输入ollama有上面图片那种效果后才能进行。

输入指令以后回车：

这样，相关的模型就开始下载了，我们等待下载完成。下载过程可能比较缓慢，大家还请耐心等待。

等到了这种状态，相关的模型和配置文件就下载好了，并且它已经开始运行，我们可以向它发送对话。

大家可以发送一句话测试一下。

如果想停止大模型运行只需要按下“ctrl+d”即可。

可以使用以下指令来查看你已经创建的大模型：

ollama list

在大模型停止后想要启动它，只需要输入：

ollama run 你大模型的名字

至此，你已经完成了ollama的安装并且运行了一个本地大模型，你可以通过观察在与模型对话时，windows的任务管理器中的资源占用来判断ollama使用了你的GPU还是CPU来运行大模型。那么，请尽情体验你的大模型吧！

六、结语

在这个人工智能高速发展的今天，我们能够在本地运行一个大语言模型这是让人非常激动的。尽管可能会因为我们本地的算力有限无法让模型以最完美的状态运行。但我相信，在不久的将来，随着芯片技术的不断更进，底层算法的不断优化，我们都能在自己的设备上运行甚至是训练属于自己的模型！同时，我们也应该感谢那些开源模型的开发者，正因为有他们才让我们这些普通人也能接触到现在这个足以改变世界的技术！