风筝超冷-CSDN博客

原创 RAG Food Project

如需 GPU 版 faiss，可用 faiss-gpu 替换 faiss-cpu，但一般 faiss-cpu 兼容性更好。

2025-06-12 20:37:03 217

下面这一段代码（有自定义）使用了自定义的提示模板（PromptTemplate）和输出解析器（LineListOutputParser），而第一段代码只使用了MultiQueryRetriever.from_llm的默认设置。-----------------------------（到此构建向量数据库完成）------------------------------（到此sql生成完成）d. 检索增强（RAG 检索上下文，选出正确的Schema示例）b. 示例对注入（构建 Q→SQL 知识库）

2025-06-12 10:30:12 478

原创向量数据库

规模与性能超大规模（108+ ）、高并发：Milvus、Vespa、Pinecone中小规模（<107 ）：Qdrant、Weaviate、Redis运维成本零运维：Pinecone、MongoDB Atlas、Weaviate (Cloud)自研可控：Milvus、FAISS、Vespa功能侧重多模态 Any - to - Any：Weaviate、OpenSearch复杂过滤 & 混合检索：Qdrant、Elasticsearch。

2025-06-10 12:11:52 815

原创 gradio提示词交互sql

【代码】gradio提示词交互sql。

2025-06-09 15:50:24 98

原创向量嵌入技术（中）

其中 BGE 为 BAAI General Embedding（智源通用嵌入模型），M3 代表 Multi - Functionality（多功能性）、Multi - Linguality（多语言性）、Multi - Granularity（多粒度性），该模型由北京智源人工智能研究院开发，是具备多语言、多功能、多粒度特征的语义向量模型。• 多语言性（Multi-Linguality）：BGE-M3模型支持超过100种语言，具备强大。多向量检索3种功能，能够灵活应对不同的检索需求。

2025-06-08 10:53:16 402

原创向量嵌入技术（上）

（Text Embedding Models）性能的综合性排行榜。它由Hugging Face团队推出，旨在提供一个标准化的评测体系，帮助研究者和开发者比较不同嵌入模型在多种任务上的表现。（Massive Text Embedding Benchmark，大规模文本嵌入基准测试）是一个用于评估。代码模型还是chat模型等方面的考量。开源模型Stella。

2025-06-08 09:53:18 287

原创文本切块技术（Splitter）

将长文本分解成适当大小的片段，以便于嵌入、索引和存储，并提高检索的精确度。可以从模型card和config文件中得知。通过子文本块检索父文本块。上下窗口为3的滑动窗口。从摘要到细节的文档索引。

2025-06-07 21:16:05 394

原创数据导入技术（文档加载）

print(f'父元素 - {parent.metadata["category"]}: {parent.page_content}')setup_docs.append((current_parent, doc)) # 将父元素和子元素一起存储。current_parent = doc # 更新当前父元素。# current_parent = None # 用于存储当前父元素。# parent_id = None # 初始化 parent_id。# 检查是否是 Title 或 Table。

2025-06-07 17:03:40 734

原创 PDF 转 Markdown

Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。

2025-06-06 10:00:00 493

原创 xlsx文件转csv

2025-06-05 14:32:21 161

原创通过模型文件估算模型参数量大小

"target_modules": ["q_proj", "v_proj"], // 目标模块。"base_model_name_or_path": "llama-7b" // 基础模型。"r": 8, // LoRA秩。假设基础模型为LLaMA-7B（隐藏层维度=4096），LoRA仅作用于。总参数量 = 65,536 × 2模块 =与文件大小不符，说明实际可能是。

2025-06-04 22:27:08 394

原创 psycopg2-binary、pgvector、 SQLAlchemy、 PostgreSQL四者的关系

安装依赖：pip install sqlalchemy psycopg2-binary pgvector。，共同实现 PostgreSQL 数据库的常规操作和向量检索能力。# SQLAlchemy 模型定义（需 pgvector 的 Vector 类型）：适合中小规模（百万级向量）、已使用 PostgreSQL 的场景。# 3. 定义模型（SQLAlchemy + pgvector）PostgreSQL 通过 pgvector 执行向量计算。：适合超大规模（十亿级）、需要分布式和高级向量功能的场景。

2025-06-04 20:50:54 1057

原创 RAG框架思路

支持多种文档加载方式：PyMuPDF、PyPDF、Unstructured文件上传和处理功能文档预览和管理功能。

2025-06-04 11:26:59 285

原创下载并运行自制RAG框架

通过 Ubuntu 的默认软件源安装，但这种方式安装的版本可能较旧（建议后续通过。：指定服务端口为 8001（默认是 8000）。并安装依赖项的步骤说明。实例（FastAPI 应用对象）。：开发模式，代码修改后自动重启服务。服务启动后，可通过浏览器或工具（如。，并初始化一个前端项目的步骤记录。表示当前已安装的 npm 版本是。的虚拟环境目录，隔离项目依赖。、Postman）访问 API。用户进入前端项目目录后运行了。

2025-06-03 09:43:35 917

原创 OpenRouter使用指南

是一个专注于大模型（LLM）API 聚合和路由的服务平台，旨在帮助开发者便捷地访问多种主流大语言模型（如 GPT-4、Claude、Llama 等），并提供统一的接口、成本优化和智能路由功能。集成多个主流大模型 API（如 OpenAI、Anthropic、Mistral、Google Gemini 等），无需为每个平台单独注册和配置。通过 OpenRouter 的标准化接口调用不同模型，减少代码适配成本。根据模型性能、价格、延迟等自动选择最优的模型或供应商。

2025-06-02 21:00:31 540

原创 LLaMA-Factory - 批量推理（inference）的脚本

scripts/vllm_infer.py 是 LLaMA-Factory 团队用于批量推理（inference）的脚本，基于 vLLM 引擎，支持高效的并行推理。它可以对一个数据集批量生成模型输出，并保存为 JSONL 文件，适合大规模评测和自动化测试。

2025-06-01 17:41:45 515

原创模型参数与显存相关概念

Adam优化器需存储FP32参数副本+动量+方差（4+2+2=8 bytes/参数）NVIDIA显卡（Turing/Ampere架构）支持FP16加速。模型大小 ≈ 参数量 × 每个参数所占字节数。的GPU（如RTX 4090/A100）AMD显卡需ROCm环境+特定模型支持。（FP16+FP32混合精度）（如A100 80GB）例如：6B模型推理需。

2025-05-30 10:53:40 283

原创 LLaMaFactory - 支持的模型和模板 && 常用命令

多卡训练（使用2张GPU） CUDA_VISIBLE_DEVICES=0,1 llamafactory-cli train \ --model_name_or_path meta-llama/Llama3-8B \ --dataset alpaca_en,code_alpaca \ --template llama3 \ --bf16 true \ --deepspeed configs/ds_config.json。，确保模型按Qwen的指令格式处理输入输出（如特殊token和角色标记）。

2025-05-29 17:59:37 1053

原创 LLaMaFactory 微调QwenCoder模型

仓库已经成功克隆下来了。下载QwenCoder模型。

2025-05-29 10:15:47 540

原创微调数据处理

仅保留UTF-8 格式文件，且所有保留的代码文件长度必须大于20行。安装 tree_sitter_languages 包。使用jupyter进行评分后的数据质量分析。

2025-05-28 21:43:32 653

原创使用Milvus运行一个Milvus单机版实例

指定一个存储所有数据的文件名，如 "milvus_demo.db"。要创建本地的 Milvus 向量数据库，只需实例化一个。使用Docker运行一个Milvus单机版实例。使用ifconfig查看本机服务器IP地址。下方输出表示连接成功！

2025-05-28 21:31:23 372

原创 Linux 使用 Docker 安装 Milvus的两种方式

Milvus 在 Milvus 资源库中提供了 Docker Compose 配置文件。要使用 Docker Compose 安装 Milvus，只需运行。

2025-05-27 20:11:12 553

原创 Ubuntu安装Docker

如果看到 Hello from Docker!如果不成功请先添加国内镜像源。

2025-05-27 15:17:08 253

原创构建共有语料库 - Wiki 语料库

中文Wiki语料库主要指的是从中文Wikipedia（中文维基百科）提取的文本数据。维基百科是一个自由的、开放编辑的百科全书项目，覆盖了从科技、历史到文化、艺术等广泛的主题。对于基于RAG的应用来说，把Wiki语料作为一个公有的语料库去更新大模型的知识时效，是非常有价值的，能够极大地提升模型的性能和应用范围。是一个用于从维基百科等维基媒体项目的数据库 dumps 中提取文本的工具。做文本预处理和数据清洗。文件将下载到当前目录下。

2025-05-19 14:10:28 270

原创大模型数据处理全流程【实战】数据洞察、数据增强、数据清洗

使用大模型生成SFT精调格式数据。

2025-05-14 12:25:01 418

原创大模型数据处理全流程【理论】

"scene_type": "售中", # 自定义业务标签。"intent": "订单修改" # 自定义业务标签。"answer": "请在订单页面点击...", # 必填。"system_prompt": "你是一名电商客服",同义改写（"怎么退款" → "如何申请退货"）低质量答案（如"请联系客服"这类无效回复）标签不准确（如"退货"误标为"换货"）过采样少数类（如"投诉"类样本不足时）欠采样多数类（如"查询"类样本过多时）

2025-05-14 10:00:40 741

原创 SFT（Supervised Fine-Tuning）精调模式

在大型语言模型（LLM）的精调（Fine-tuning）中，是最常用的方法之一，其核心是通过高质量的指导模型学习特定任务或领域知识。

2025-05-14 09:59:31 452

原创 AI模型开发全流程笔记

使用Hugging Face Datasets库加速处理。-d '{"question":"退货政策是什么"}'命名规范：v1.0_20240520（版本_日期）Batch Size：常规选择16/32/64。移除PII敏感信息（身份证/手机号等）混合训练：4:1（业务数据:通用数据）过拟合：增加Dropout层/早停机制。格式要求：严格QA对形式（1问1答）多样性：覆盖不同表达方式（同义问法）平衡性：问题类型/难度均匀分布。国内：阿里云PAI/百度BML。验证集准确率（关注提升趋势）

2025-05-14 09:52:19 311

原创提示词设计模板（基于最佳实践）

✅ *"列出5种城市环保措施，并分别说明其对减少碳排放的影响（要求：数据支持+案例）"*2. 周长公式：2*(x + 3x) = 48 → 8x = 48 → x = 6。3. 面积 = 长*宽 = 3x*x = 18*6 = 108cm²。[任务] 需要完成[具体任务目标，如“制定糖尿病患者的饮食清单”][角色] 你是一名[领域专家角色，如“营养师”]**角色**: [指定身份，如“数据分析师”]1. 分步骤说明：[步骤1]、[步骤2]...**参考材料**: [文献/数据来源]

2025-05-13 22:04:14 502

原创使用百度云大模型平台做【提示词优化】

。

2025-05-13 21:52:48 318

原创如何快速入门大模型？

将文本、图像等数据转化为多维向量（如[0.2, -0.5, 0.7]）存储，通过向量相似度（如余弦相似度）实现高效检索。小模型（如ChatGLM-6B、BLOOM-7B）：适合消费级GPU（如RTX 3090）部署。：需考虑显存（如6B模型约需12GB显存）、量化技术（降低精度节省资源）。大模型（如LLaMA-2-70B）：需专业级硬件（如A100集群）。：计算词与词的相关性（如"it"指代"cat"还是"dog"）。：连接大模型与外部工具（如数据库、API）的"胶水框架"。

2025-05-12 21:41:55 888

原创获取高德地图JS API的安全密钥和Key的方法

要使用高德地图JavaScript API，您需要获取API Key和安全密钥(securityJsCode)。

2025-05-12 14:56:58 2221

原创 Client 和 Server 的关系理解

server.py 是“工具箱”，负责实现和暴露功能。client.py 是“指挥者”，负责与用户交互、调用工具箱里的功能，并把结果反馈给用户。二者通过 MCP 协议（本例用 stdio 通道）实现解耦和灵活的工具链调用。

2025-05-10 18:41:55 524

原创 MCP项目实例 - client sever交互

构建一个本地智能舆论分析系统。利用自然语言处理和多工具协作，实现用户查询意图的自动理解。进行新闻检索、情绪分析、结构化输出和邮件推送。该函数通过 Serper API 使用关键词从 Google 上搜索获取新闻，返回前五条新闻并保存到本地文件中。函数用于对一段新闻文本或任意内容进行情感倾向分析，并将分析结果保存为 Markdown 格式的报告文件。主要内容功能流程读取大模型配置：从环境变量中加载大模型的 API 密钥、模型名称和服务器地址，用于后续调用语言模型。

2025-05-10 12:05:20 1170

原创无网络环境下配置并运行 word2vec复现.py

需运行文件。

2025-05-07 22:55:06 379

原创使用 Gradio + Qwen3 + vLLM 部署 Text2SQL 多表查询系统

Gradio: 提供用户友好的 Web 界面Qwen3: 通义千问的最新开源大模型，擅长文本到SQL转换vLLM: 高效的大模型推理引擎，支持连续批处理和PagedAttention。

2025-05-07 21:32:03 413

原创本地部署 MySQL + Qwen3-1.5B + Flask + Dify 工作流

进入 Dify 源代码的 Docker 目录。（移除匿名用户、禁止远程 root 登录等）# 在Ubuntu/Debian上安装。选择密码强度验证策略（通常选。# 启动MySQL服务。

2025-05-07 13:53:33 1160

原创网页版部署MySQL + Qwen3-0.5B + Flask + Dify 工作流部署指南

output += `名称: ${item.name}, 类别: ${item.category}, 价格: ${item.price}, 库存: ${item.stock}\\n`;if (result.length === 0) return "没有找到匹配的结果";let output = "查询结果：\\n";（移除匿名用户、禁止远程 root 登录等）类型：JavaScript处理节点。选择密码强度验证策略（通常选。配置：接收用户的中文查询。配置：显示格式化后的结果。类型：HTTP请求节点。

2025-05-06 21:55:19 1428

原创 Dify - Stable Diffusion

Stable Diffusion 是一种基于文本提示生成图像的工具，Dify 已经实现了访问 Stable Diffusion WebUI API 的接口，因此你可以直接在 Dify 中使用它。你需要从 HuggingFace 或其他来源下载模型，并将其放在 Stable Diffusion WebUI 的目录中。推荐使用装有较强 GPU 的机器来安装和驱动 Stable Diffusion，但这并不是必须的，你也可以使用 CPU 来生成图像，但速度可能会很慢。，但我们仍然需要获取模型名称，访问。

2025-05-06 14:21:28 590

原创 Dify - Embedding Rerank

运行命令后，你应该会看到类似以下的输出，显示所有容器的状态和端口映射，通过这些步骤，你可以在本地成功安装 Dify。根据你系统上的 Docker Compose 版本，选择合适的命令来启动容器。进入 Dify 源代码的 Docker 目录。命令检查版本，详细说明请参考。启动 Docker 容器。

2025-05-05 22:20:54 846

空空如也

空空如也