lsh61199-CSDN博客

原创将大模型量化为GGUF模型文件

大语言模型在各种领域都有着广泛的应用，但是也面临着一些挑战，比如模型的大小、计算量和内存占用都很大，这限制了模型在某些设备上的部署和运行。为了解决这些问题，模型量化应运而生。模型量化是一种将浮点计算转成低比特定点计算的技术，它可以有效的降低模型计算强度、参数大小和内存消耗，从而提高模型的推理速度和效率。它是一种新的二进制模型文件，它可以对深度学习模型进行高效的压缩，大大减少模型的大小和内存占用，从而提高模型的推理速度和效率，同时兼顾模型的推理质量。

2024-06-17 10:41:15 1792

原创 ollama本地运行llama3:70b模型（Linux）

【代码】ollama本地运行llama3:70b模型（Linux）

2024-05-13 12:18:16 2980

原创本地ollama大模型接入沉浸式翻译

【代码】本地ollama大模型接入沉浸式翻译。

2024-05-06 18:31:27 5495 1

原创基于Ollama+MaxKB快速搭建企业级RAG系统

然后启动ollama的服务，注意容器内ollama的服务是在11434端口，然后我们通过。Ubuntu22系统，Docker20以上，Docker的安装参考。

2024-05-06 15:47:49 1176

原创 Mac本地部署LLama3+AnythingLLM+Docker方式的本地知识库

就可以访问anythingLLM了。3.安装Enchanted。1.拉取镜像，终端执行。3.配置ollama。

2024-05-03 22:58:46 4680 3

原创在阿里云上部署Llama3（中文版本）

默认情况下直接运行以下代码即可体验llama3中文对话，请自行修改。2.新建requirements.txt文件，插入。1.新建conda环境。

2024-04-22 20:22:54 2327 1

原创在阿里云上部署Qwen-7B和Qwen-VL

5.安装torch torchvision torchaudio。7. 如果您的设备支持fp16或bf16，我们建议安装。）以获得更高的效率和更低的内存占用。3.进入Qwen-7B文件，下载模型。3.进入Qwen-VL文件，下载模型。6.安装A卡版本auto-gptq。1.创建conda虚拟环境。1.创建conda虚拟环境。

2024-04-17 16:53:59 1777

原创利用 langchain 思想实现的基于本地知识库的问答应用

一种利用思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。依托于本项目支持的开源 LLM 与 Embedding 模型，本项目可实现全部使用模型。与此同时，本项目也支持 OpenAI GPT API 的调用，并将在后续持续扩充对各类模型及模型 API 的接入。本项目实现原理：过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k。

2024-04-11 14:03:39 873

原创部署ChatGLM3 api接口访问，微调模型

打开LLaMA-Factory项目data文件夹下的dataset_info.json,最后一行插入。2.一切看起来都非常的简单,现在只需要学会配置训练集和添加自己的训练集,就能完成大模型微调。新建self_cognition.json，插入数据。使用LLaMA-Factory，loar微调。1.下载/安装LLaMA-Factory。4.测试api，成功的话会终端显示对话。*本地调用测试失败，暂时没有解决。

2024-04-10 20:49:38 1431

原创在阿里云上部署ChatGLM3

默认已经帮我们配置好了环境变量、网络，装好了python甚至pytorch、tensorflow等等，所以这些正常比较麻烦的操作已经不需要我们再搞了。有多文件需要修改变量路径，把默认的“THUDM/chatglm3-6b”修改为“/mnt/workspace/ChatGLM3/chatglm3-6b”因为模型很大（总共11.6GB），所以从modelscope上git下载（放到ChatGLM3下级目录中）conda的配置，将阿里云的源替换为清华的。

2024-04-09 18:30:26 895 1