格瑞Lxf-CSDN博客

原创使用gradio快速构建llm聊天

语言模型采用qwen7b，方法使用ollama。embedding模型选用bge large zh知识库用chroma。

2024-03-11 14:23:35 298

原创 gradio不仅是界面，也是个api接口

具体详情看gradio docs。

2024-03-08 18:07:44 923 1

装饰器来告诉 Flask 触发函数的 URL。本代码设置'http://localhost:5000/api/answer'的url用来触发函数。在app.run中设置0.0.0.0表示可以被同网络的用户访问。用requests.post向url发送信息，返回json格式。app=Flask(__name__)创建该类实例。该类的实例将会成为我们的 WSGI 应用。接收端：开放本机5000端口api。

2024-03-08 14:54:41 238 1

原创 whisper v3语音转文字

如果要用large-v3就在load_model("large-v3")，模型会自动下载到.cache里的whisper，建议python3.8-3.11以及基础的gpu版torch等等，可以pip直接下载库。https://chocolatey.org/ 或 https://scoop.sh/模型可用的型号如下：建议直接用 23年11月发布的large v3模型。linux用命令就可以下载了，如果是windows的话需要进入官网。如果后期github上又重新更新了某些内容，可以拉取更新。

2024-03-07 18:08:31 359 1

原创简单的本机服务器端与客户端的通信(为后续搞语音聊天做准备)

s = socket.socket(socket.AF_INET, socket.SOCK_STREAM )是创建了一个套接字对象，s.bind()将ip和端口绑定到创建的套接字上，使得服务器可以监听该地址和端口。客户端：client_socket.connect(server_address) # 连接服务器。服务器：client, client_addr = s.accept() # 等待客户端连接。文字转语音可用sovits技术。服务端不需要看其他函数，只需要看main函数，主要看思路。

2024-03-06 16:51:53 205 1

原创基于streamlit可视化向量知识库配置

以上是效果界面图，使用方法：输入知识库名字以及知识库的描述点击创建，则会创建一个空的知识库文件夹，随后在已有知识库中选择你想要添加文本的知识库（可以是原本已有的知识库也可以是空知识库，不会覆盖原有知识），如果要删除就选择已有知识库然后点delete。

2024-03-06 16:12:11 236 1

原创解决ollama无法长时间保存在内存中的问题

一、每次发出请求加载模型时，定义一个keep_alive变量，说明要存在多长时间。

2024-03-04 10:38:29 644

原创 llm在网页中的流式输出（langchain与streamlit库）

llm本身是支持在终端流式输出的，以ollama为例查看源码StreamingStdOutCallbackHandler类中的函数sys.stdout.write(token)表示在终端以此输出每一个token，所以思路是可以将每一个token保存在一个对象中，然后在页面中以此输出。重载StreamingStdOutCallbackHandler类，保存token定义generate_tokens函数，返回值对象为生成器对象。可以用streamlit库的write_stream函数流式输出到页面。

2024-03-04 10:31:10 1435 1

原创 streamlit的langchain检索数据库基本代码（无语言模型）

把这句话去掉，就是一个界面了，无输出的界面。

2024-01-29 10:13:59 231

原创 CMAKE在windows上的安装，用于gguf模型的量化

然后安装一路按next，其中的一步需要改一下。官网下载连接，下载第一个msi文件。后面的话安装路径想改就改。完成后在终端查看，就行了。这个要手动选择第二个。

2024-01-26 11:52:03 135 1

原创 langchain的提示词工程以及使用提示词进行问答QA

'''无提示词对话式问答QA，基于问答QA，有提示词的后面再写,第一种有自带的memory。'''print(qa({"question": "我上一个问题是什么"}))其他看他的文章【LangChain】对话式问答(Conversational Retrieval QA)_conversationalretrievalchain-CSDN博客。

2024-01-25 18:09:57 481

原创目前langchain的工作代码

如果网络问题，就在后面加个清华源 -i https://pypi.tuna.tsinghua.edu.cn/simple ，实在不行用cpu就行了。重点：llama-cpp-python这个库windows死活安装不了，你可以了解一下怎么装，我装了两天了都不行，linux可以。后面运行，缺什么就安装什么。llm = LlamaCpp（）函数保留下来，这个代码是来测试这个函数有没有用的。只需要改md文件，随便用个简单的md文件就行了。python3.10，最高版本的gpu版本。

2024-01-25 16:41:05 434

原创将qwen1.8B量化成gguf（其他模型同理）

阿里在12月1日进一步开源了Qwen的系列模型。其中包含最小的型号Qwen1.8B。算是中文领域3B以下最强的大模型之一了。试试llama.cpp量化部署。关于终端的量化部署构架，有llama.cpp、fastllm、Qwen.cpp等都可以选择…运行pip install -r requirements.txt，后续缺少什么就直接安装什么，python建议3.10。llama.cpp尝鲜Qwen1.8B - 知乎。具体在linux安装步骤为以下顺序，

2024-01-24 15:09:05 860 1

原创配置语言模型环境心得（langchain-chatchat）

进入previous versions of pytorch中，选择对应的cuda版本和torch版本直接复制下载。然后根据github上的要求：确保你的机器安装了 Python 3.8 - 3.11，结合语言模型qwen的。首先需要下载conda等软件，可自行百度，或者等我哪天电脑坏了要重新下载的话就再补充。后面直接pip 对应github的环境文件就行了。首先在终端，cd到你喜欢的文件夹，准备下载文件。（但是有时候进不去，一般进得去才方便）因此开始在终端打命令。

2024-01-23 18:11:03 403 1

原创 langchain知识库分割、加载、检索

解释一下为什么要在"bge-large-zh"前面加r，因为这个模型文件与代码同级，但是我不想用绝对路径，用相对路径的话又会自动去huggingface下载模型，所以我加r就可以识别到本地的模型了。，需要判断persist_directory文件是否存在，不要重复加载了，用Chroma.from_documents()创建向量数据库，docs是文档，且要persist向量持久化。这个代码是open我的markdown文档，然后根据500大小，50重复分割，具体见langchain技术文档。

2024-01-23 17:45:54 689 1

原创 sreamlit的qwen简陋问答界面

在CPU跑，sreamlit跑不动，可以在gradio跑。后续接入langchain。

2024-01-19 18:23:54 387 1

原创通义千问的快速开始（其他模型也一样，具体看模型github）

这行代码尝试从预训练模型“Qwen/Qwen-1_8B-Chat”加载生成任务的配置信息，如最大生成长度、温度控制、top_k采样等。这行代码从Hugging Face Model Hub加载指定的预训练模型“Qwen/Qwen-1_8B-Chat”的。model.chat()返回模型的回答信息并输出，由于是一个一个字返回的，可以选择流式输出，这样反馈好点。表示允许执行远程代码（在某些情况下，模型或tokenizer可能包含额外的自定义逻辑）。会根据模型类型自动选择合适的模型类。表示使用仓库的主分支版本。

2024-01-19 10:55:30 469 1

China_boy007的博客