![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
agi
文章平均质量分 89
paopaodog
这个作者很懒,什么都没留下…
展开
-
本地虚拟机Centos7使用Ollama运行llama3中文模型和OpenWebUI访问
量化是一种模型压缩技术,通过减少表示权重和激活的位数来减少模型的大小和推理时的计算量。q4大概4.7G,q8大概8.5G,fp16大概16G。中搜索llama3找下载最多的中文版,我这里选择了8b q4的,因为虚拟机硬盘空间不够,有条件的可以选择q8或者fp16的。本来想用docker安装lobe-chat,但是docker死活拒绝连接,所以选择了Open WebUI,从docker拉取,大概4个多G。如果想宿主机也能访问虚拟机Ollama上的大模型,那需要使服务监听所有网络接口,否则只能虚拟机内部访问。原创 2024-06-20 12:22:41 · 1136 阅读 · 0 评论 -
AI大模型开发基础之提示词工程【翻译】
提示词工程【翻译】原创 2024-02-14 19:52:02 · 989 阅读 · 0 评论