- 博客(255)
- 收藏
- 关注
原创 构建共有语料库 - Wiki 语料库
中文Wiki语料库主要指的是从中文Wikipedia(中文维基百科)提取的文本数据。维基百科是一个自由的、开放编辑的百科全书项目,覆盖了从科技、历史到文化、艺术等广泛的主题。对于基于RAG的应用来说,把Wiki语料作为一个公有的语料库去更新大模型的知识时效,是非常有价值的,能够极大地提升模型的性能和应用范围。是一个用于从维基百科等维基媒体项目的数据库 dumps 中提取文本的工具。做文本预处理和数据清洗。文件将下载到当前目录下。
2025-05-19 14:10:28
165
原创 大模型数据处理全流程【理论】
"scene_type": "售中", # 自定义业务标签。"intent": "订单修改" # 自定义业务标签。"answer": "请在订单页面点击...", # 必填。"system_prompt": "你是一名电商客服",同义改写("怎么退款" → "如何申请退货")低质量答案(如"请联系客服"这类无效回复)标签不准确(如"退货"误标为"换货")过采样少数类(如"投诉"类样本不足时)欠采样多数类(如"查询"类样本过多时)
2025-05-14 10:00:40
707
原创 SFT(Supervised Fine-Tuning)精调模式
在大型语言模型(LLM)的精调(Fine-tuning)中,是最常用的方法之一,其核心是通过高质量的指导模型学习特定任务或领域知识。
2025-05-14 09:59:31
407
原创 AI模型开发全流程笔记
使用Hugging Face Datasets库加速处理。-d '{"question":"退货政策是什么"}'命名规范:v1.0_20240520(版本_日期)Batch Size:常规选择16/32/64。移除PII敏感信息(身份证/手机号等)混合训练:4:1(业务数据:通用数据)过拟合:增加Dropout层/早停机制。格式要求:严格QA对形式(1问1答)多样性:覆盖不同表达方式(同义问法)平衡性:问题类型/难度均匀分布。国内:阿里云PAI/百度BML。验证集准确率(关注提升趋势)
2025-05-14 09:52:19
291
原创 提示词设计模板(基于最佳实践)
✅ *"列出5种城市环保措施,并分别说明其对减少碳排放的影响(要求:数据支持+案例)"*2. 周长公式:2*(x + 3x) = 48 → 8x = 48 → x = 6。3. 面积 = 长*宽 = 3x*x = 18*6 = 108cm²。[任务] 需要完成[具体任务目标,如“制定糖尿病患者的饮食清单”][角色] 你是一名[领域专家角色,如“营养师”]**角色**: [指定身份,如“数据分析师”]1. 分步骤说明:[步骤1]、[步骤2]...**参考材料**: [文献/数据来源]
2025-05-13 22:04:14
482
原创 如何快速入门大模型?
将文本、图像等数据转化为多维向量(如[0.2, -0.5, 0.7])存储,通过向量相似度(如余弦相似度)实现高效检索。小模型(如ChatGLM-6B、BLOOM-7B):适合消费级GPU(如RTX 3090)部署。:需考虑显存(如6B模型约需12GB显存)、量化技术(降低精度节省资源)。大模型(如LLaMA-2-70B):需专业级硬件(如A100集群)。:计算词与词的相关性(如"it"指代"cat"还是"dog")。:连接大模型与外部工具(如数据库、API)的"胶水框架"。
2025-05-12 21:41:55
875
原创 获取高德地图JS API的安全密钥和Key的方法
要使用高德地图JavaScript API,您需要获取API Key和安全密钥(securityJsCode)。
2025-05-12 14:56:58
895
原创 Client 和 Server 的关系理解
server.py 是“工具箱”,负责实现和暴露功能。client.py 是“指挥者”,负责与用户交互、调用工具箱里的功能,并把结果反馈给用户。二者通过 MCP 协议(本例用 stdio 通道)实现解耦和灵活的工具链调用。
2025-05-10 18:41:55
488
原创 MCP项目实例 - client sever交互
构建一个本地智能舆论分析系统。利用自然语言处理和多工具协作,实现用户查询意图的自动理解。进行新闻检索、情绪分析、结构化输出和邮件推送。该函数通过 Serper API 使用关键词从 Google 上搜索获取新闻,返回前五条新闻并保存到本地文件中。函数用于对一段新闻文本或任意内容进行情感倾向分析,并将分析结果保存为 Markdown 格式的报告文件。主要内容功能流程读取大模型配置:从环境变量中加载大模型的 API 密钥、模型名称和服务器地址,用于后续调用语言模型。
2025-05-10 12:05:20
1063
原创 使用 Gradio + Qwen3 + vLLM 部署 Text2SQL 多表查询系统
Gradio: 提供用户友好的 Web 界面Qwen3: 通义千问的最新开源大模型,擅长文本到SQL转换vLLM: 高效的大模型推理引擎,支持连续批处理和PagedAttention。
2025-05-07 21:32:03
373
原创 本地部署 MySQL + Qwen3-1.5B + Flask + Dify 工作流
进入 Dify 源代码的 Docker 目录。(移除匿名用户、禁止远程 root 登录等)# 在Ubuntu/Debian上安装。选择密码强度验证策略(通常选。# 启动MySQL服务。
2025-05-07 13:53:33
1115
原创 网页版部署MySQL + Qwen3-0.5B + Flask + Dify 工作流部署指南
output += `名称: ${item.name}, 类别: ${item.category}, 价格: ${item.price}, 库存: ${item.stock}\\n`;if (result.length === 0) return "没有找到匹配的结果";let output = "查询结果:\\n";(移除匿名用户、禁止远程 root 登录等)类型:JavaScript处理节点。选择密码强度验证策略(通常选。配置:接收用户的中文查询。配置:显示格式化后的结果。类型:HTTP请求节点。
2025-05-06 21:55:19
1413
原创 Dify - Stable Diffusion
Stable Diffusion 是一种基于文本提示生成图像的工具,Dify 已经实现了访问 Stable Diffusion WebUI API 的接口,因此你可以直接在 Dify 中使用它。你需要从 HuggingFace 或其他来源下载模型,并将其放在 Stable Diffusion WebUI 的 目录中。推荐使用装有较强 GPU 的机器来安装和驱动 Stable Diffusion,但这并不是必须的,你也可以使用 CPU 来生成图像,但速度可能会很慢。,但我们仍然需要获取模型名称,访问。
2025-05-06 14:21:28
504
原创 Dify - Embedding Rerank
运行命令后,你应该会看到类似以下的输出,显示所有容器的状态和端口映射,通过这些步骤,你可以在本地成功安装 Dify。根据你系统上的 Docker Compose 版本,选择合适的命令来启动容器。进入 Dify 源代码的 Docker 目录。命令检查版本,详细说明请参考。启动 Docker 容器。
2025-05-05 22:20:54
796
原创 Dify本地 + vllm + Qwen
运行命令后,你应该会看到类似以下的输出,显示所有容器的状态和端口映射,通过这些步骤,你可以在本地成功安装 Dify。根据你系统上的 Docker Compose 版本,选择合适的命令来启动容器。使用ifconfig显示每个网卡的 IP 地址、MAC 地址、子网掩码、广播地址。进入 Dify 源代码的 Docker 目录。命令检查版本,详细说明请参考。启动 Docker 容器。
2025-05-05 16:48:39
797
原创 Qwen2.5模型性能测评 - 速度指标
第一个Token的生成时间(与Time to First Token关联)用户输入完成到模型返回第一个Token的时间(关键交互体验指标):输入文本→Tokenization→推理→解码→返回结果。:排除首个Token后的持续生成速率。确保模型已预热(避免冷启动影响)。)可减少随机性对首次延迟的影响。若需真实端到端延迟,需包含。
2025-05-04 15:09:41
390
原创 云服务器信息IP相关命令
或查看云服务商控制台(如 AWS 的 Elastic IP、阿里云的 EIP)。curl http://<云服务器IP>:9999/v1/models。http://<云服务器IP或域名>:9999/v1。404 错误 → 检查端点路径是否为。如果请求失败,查看 Dify 的。连接超时 → 检查网络/防火墙。在 Dify 中点击插件的。确保服务器的安全组放行。
2025-05-04 10:01:40
254
原创 使用 Continue + VSCode + vLLM + QWenCoder 部署自动写代码脚本
下面是一个完整的指南,介绍如何在 VSCode 中使用 Continue 插件配合 vLLM 和 QWenCoder 来部署自动写代码的脚本。
2025-05-04 09:57:00
999
原创 基于 Dify + vLLM插件 + Qwen3 构建问答机器人Docker版
VLLM_SERVER_URL=http://vllm-server:8000 # 如果vLLM单独容器部署。官方提供的镜像,用于部署高性能的 OpenAI 兼容 API 服务(支持类似 ChatGPT 的接口)。在模型设置中,选择 vLLM 作为提供商,然后选择 Qwen3-7B 模型。├── qwen3-7b/ # 你新建的目录。CUDA 和 cuDNN (与你的 GPU 兼容的版本)建议使用单独的 Docker 容器运行 vLLM,修改。等 LLM 应用框架中,用于连接本地模型(如你配置的。
2025-05-03 15:16:44
1608
1
原创 Dify 安装 & 使用
# 检查 Docker 是否运行sudo systemctl status docker# 检查 Docker Compose 版本docker compose version # V2 版本docker-compose version # V1 版本运行命令后,你应该会看到类似以下的输出,显示所有容器的状态和端口映射: 最后检查是否所有容器都正常运行:进入 dify 源代码的 docker 目录,按顺序执行以下命令:同步环境变量配置 (重要!) 如果 文件有更新,请
2025-05-02 15:40:04
480
原创 基于 Dify + vLLM + Qwen3 构建问答机器人
Dify 项目结构近期有变化导致 requirements.txt被替代为~/dify/api 目录下 pyproject.toml 文件,这说明 Dify 后端现在采用了新的 Python 包管理方式(PEP 517/518 标准),通常用 pip 或 poetry、uv、pipx 等工具来安装依赖。如果 api 目录下没有 .env.example,你可以手动创建 .env 文件,内容参考前述建议(数据库、Redis、SECRET_KEY 等)。- [:进入复制模式(可以查看历史输出,按 q 退出)
2025-04-30 23:19:09
1105
原创 OpenCompass 评测平台使用,评测Qwen-0.5B 和 Qwen-1.8B
对和对话模型在三个数据集上进行对比评测。评测平台地址:👉在该平台上,你可以:查看已有模型的评测排名提交自己的模型进行评测对比不同模型的性能。
2025-04-29 10:32:03
929
原创 面试篇 - LoRA(Low-Rank Adaptation) 原理
输出示例:trainable params: 262,144 || all params: 6,742,016,000 || trainable%: 0.0039。论文实验显示:零初始化 BB 可使初始损失与预训练模型相差不足0.1%,而非零初始化可能差50%+。若初始 ΔW≠0,模型可能立即偏离预训练学到的知识(如GPT-3突然忘记如何造句)。:如同汽车改装,先保持原厂配置(W),再逐步加装新部件(ΔW),避免直接飙车失控。:大模型的权重变化矩阵 ΔWΔW 通常是低秩的(少数主成分主导变化)。
2025-04-29 10:25:37
875
原创 面试篇 - Transformer前馈神经网络(FFN)使用什么激活函数?
GELU(x) = xΦ(x) ≈ 0.5x(1 + tanh[√(2/π)(x + 0.044715x³)]) # 近似计算。timeit.timeit(lambda: nn.ReLU()(x), number=100) # 约0.12秒。timeit.timeit(lambda: nn.GELU()(x), number=100) # 约0.18秒。self.activation = nn.ReLU() # 或 nn.GELU()计算代价:GELU比ReLU慢约15%(因需计算tanh)
2025-04-29 10:07:39
826
原创 本地部署Qwen-7B实战 vLLM加速推理
例如:PoetryAnalyzer(train_data_path=train_file, num_shots=5)。由于我们将Qwen模型移动到了数据盘下,需要在代码poetry_analysis/src。创建一个新的项目目录结构,并设置所需的文件。将模型移动到数据盘 /hy-tmp/Qwen-7B-Chat 下,现在我们来创建项目所需的文件poetry_analysis/创建工具函数文件poetry_analysis/src/创建改进版的推理代码poetry_analysis/中指定新的本地模型路径。
2025-04-28 15:59:42
769
原创 RAG(Retrieval-Augmented Generation,检索增强生成)
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合和的技术,旨在提升大语言模型(LLM)生成内容的准确性和时效性。,从而弥补纯生成模型(如GPT)的固有缺陷。
2025-04-27 22:52:10
258
原创 AI Agent - AgentExecutor
AI Agent可以类比于真实的人类助理 可以调用外部工具(如搜索 API、计算器、代码执行器等)来完成复杂任务。:学习到的模式(如“用户说‘我饿了’可能隐含点餐需求”)。:图像、语音、自然语言文本(需转化为机器可理解的形式)。:当前会话的上下文(如 ChatGPT 的对话历史)。:从严格受限(逐步审批)到完全自主(自动修复错误)。:固定步骤数、动态评估(如置信度阈值)、外部干预。:直到满足预设条件(如答案足够精确、步骤超限)。:通过向量数据库存储的过往经验(如用户偏好)。
2025-04-27 12:47:49
666
原创 服务器部署LLaMAFactory进行LoRA微调
仓库已经成功克隆下来了。Factory支持的格式。LLaMA-Factory支持多种格式,对于文本分类任务,我们可以使用alpaca格式。包含了所有可用的数据集。使用刚刚自定义三个数据采集数据集,需要在文件中添加数据集描述,并通过修改配置来使用数据集。现在让我们添加我们的三个自定义数据集。数据已经成功转换并保存到了正确的位置。接下来可以开始使用这些数据进行训练了。
2025-04-24 09:02:37
1081
原创 Megatron - LM 重要文件解析 - /tools/preprocess_data.py
preprocess_data.py 的主要功能。这是 Megatron-LM 的数据预处理脚本,主要用于将原始文本数据转换为模型训练所需的格式。
2025-04-22 22:20:41
527
原创 部署Megatron - LM,快速上手使用
之前我们看到目前的环境有 NVIDIA V100 GPU 和 CUDA 12.1,我们可以安装对应的 GPU 版本 PyTorch。从输出来看,Megatron-LM 已经成功安装,我们可以看到它的所有命令行参数。2. 现在让我们进行一个简单的测试。直接在当前环境安装运行 PyTorch 和 Megatron-LM不使用 Docker。如果遇到上述状况需查看目录项详情。
2025-04-22 21:13:26
444
原创 部署LLaMA Factory,及快速使用
LLaMA Factory 是一个围绕 Meta 的 LLaMA(Large Language Model Meta AI)模型设计的工具或代码结构,主要用于简化模型的创建、管理和部署。
2025-04-15 22:54:50
1293
原创 FileZilla 云服务器文件迁移
软件下载地址https://www.filezilla.cn/download/client软件安装过程及使用指南见下方博客 FileZilla客户端的安装配置教程以及使用教程(超级详细)_filezilla使用教程-CSDN博客
2025-04-15 15:40:04
111
原创 多卡集群 - Docker命令来启动一个容器的实例
下面是一些常用的 Docker 镜像加速器及其对应的镜像加速器地址。这些加速器可以帮助用户在中国大陆更快地下载 Docker 镜像,减少下载时间和提高效率。
2025-04-14 21:46:57
353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人