- 博客(19)
- 收藏
- 关注
原创 本地虚拟机Centos7使用Ollama运行llama3中文模型和OpenWebUI访问
量化是一种模型压缩技术,通过减少表示权重和激活的位数来减少模型的大小和推理时的计算量。q4大概4.7G,q8大概8.5G,fp16大概16G。中搜索llama3找下载最多的中文版,我这里选择了8b q4的,因为虚拟机硬盘空间不够,有条件的可以选择q8或者fp16的。本来想用docker安装lobe-chat,但是docker死活拒绝连接,所以选择了Open WebUI,从docker拉取,大概4个多G。如果想宿主机也能访问虚拟机Ollama上的大模型,那需要使服务监听所有网络接口,否则只能虚拟机内部访问。
2024-06-20 12:22:41
3321
原创 k8s问题排查:kubernetes-dashboard crashloopbackoff 状态
k8s问题排查:kubernetes-dashboard crashloopbackoff 状态
2023-07-31 08:31:38
623
1
原创 k8s问题排查:the existing bootstrap client certificate in /etc/kubernetes/kubelet.conf is expired
k8s问题排查:the existing bootstrap client certificate in /etc/kubernetes/kubelet.conf is expired
2023-07-29 06:58:52
2438
原创 JVM内存分配(JDK8)
以一个Math类为列,从JVM运行时内存结构,到内存分配流程,最后内存分配参数的含义,串起整个流程。文章还待后续完善。
2022-10-04 19:20:58
1620
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人