自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

swpucwf的博客

写自己的笔记,让别人卷去吧

  • 博客(253)
  • 资源 (3)
  • 收藏
  • 关注

原创 基于通义千问 + Weaviate 向量库的 ResumeMind - 智能简历筛选诊断平台

在当今竞争激烈的就业市场中,无论是企业招聘还是个人求职,简历都扮演着至关重要的角色。然而,传统的简历处理方式往往效率低下,主观性强,往往难以满足快速变化的人才需求。应运而生,它是一款集于一体的全栈应用。该平台巧妙利用大语言模型(通义千问)和向量搜索技术,为HR和候选人打造了一个高效处理简历的解决方案,重新定义了简历处理的方式。

2025-12-07 11:10:53 826

原创 企业级OLAP业务落地:Agent架构范式与技术选型全解析

Agent架构是一种“具备自主决策与多步执行能力的智能体框架”,其核心目标是让大模型从“被动生成”升级为“主动解决问题”。与传统“面向Chain/过程开发”的模式不同(依赖固定数学模型、判别模型等预设逻辑),Agent架构以“任务为中心”,通过动态拆解步骤、调用工具、记忆历史信息,适配复杂多变的企业OLAP场景(如实时数据分析、多维度报表生成、跨部门数据协作)。适用场景:企业OLAP业务需求极为特殊(如自研OLAP引擎、特殊数据安全要求),需要完全脱离现有工具框架,构建专属Agent系统。目标人群。

2025-12-05 17:39:51 721

原创 langgraph从入门到精通(一)——langgraph概念解析

LangGraph是一种基于图计算的有状态Agent框架,旨在提供强大的编程模型,用于构建智能、自适应和可扩展的计算系统,以应对复杂计算挑战(如多轮对话、长期任务执行、多智能体协作)。功能:智能体对复杂信息(如长文档、多轮对话历史)进行汇总,提取关键要点,形成简明摘要;价值:帮助智能体快速理解复杂情境,减少后续节点的信息处理量(如将“1000字的会议记录”总结为“100字核心要点”)。子图是LangGraph中用于表示局部计算逻辑的基本单元,通过定义子图,可将复杂的图结构拆分为多个简单、可管理的模块。

2025-12-05 16:45:45 816

原创 大模型从入门到精通(一)——大语言模型微调的前沿技术与应用

AdaLoRA(Adaptive LoRA)是对经典 LoRA 的自适应改进版,由清华大学 & 字节跳动团队 2023 年提出,核心解决了传统 LoRA“固定低秩维度(r)对所有层 / 任务均一化” 的问题 —— 通过动态调整不同层、不同 token 的 LoRA 秩分配,在保持极低参数量的同时,进一步提升微调效果,尤其适配复杂任务(如长文本生成、多模态、复杂对话)。Prompt Tuning 是 “低成本、高性能” 的大模型适配方案,用极小的提示参数就能达到接近全量微调的效果,同时避免参数冗余。

2025-12-05 14:53:15 677

原创 RAG从入门到精通(十五)——高级RAG范式

GraphRAG(Graph Retrieval-Augmented Generation)是融合 “知识图谱构建”“社区层次分析” 与 “检索增强生成” 的复合型技术框架,核心目标是通过图结构对非结构化语料进行结构化建模,利用社区划分实现知识的多粒度组织,最终在查询阶段整合宏观社区摘要与微观图谱关联信息,生成精准、全面且上下文连贯的回答。其完整流程分为离线索引构建阶段与在线查询推理阶段,两阶段通过多层级索引形成闭环,兼顾检索效率与回答质量。

2025-12-03 16:52:25 1282

原创 RAG从入门到精通(十四)——评估技术

对于 ROUGE-1(即 1-gram),匹配项包括“the”“cat”“on”和“mat”4 个。RAG(检索增强生成)系统专用的 “评估数据集” 结构—— 它是用来测试 RAG 系统性能的标准化数据模板,通过明确的 “问题、答案、来源” 对应关系,验证 RAG 的检索准确性和回答可靠性。只要有一个维度不达标,RAG的输出就是“无效”或“低质量”的——比如检索到了相关Context,但回答偏离了问题,依然是失败的RAG结果。这种计算方式,文本块排名越靠前,rankq 的倒数越大,MRR 也会越大。

2025-12-02 23:49:54 1251

原创 RAG从入门到精通(十三)——响应生成技术

GLM 系列(智谱 AI):以 GLM - 4.5V 为代表,不仅具备不错的通用对话能力,还强化了 3D 几何推理和物理公式推导能力,凭借 3D - RoPE 技术,在兼顾通用场景的同时,也能适配 STEM 学科相关的复杂需求。Grok(xAI):风格偏活泼,且具备一定的实时信息处理能力,其衍生的编程专项版本表现亮眼,基础通用版本在逻辑对话、观点输出等场景中,能呈现出差异化的表达风格,适合追求个性化交互的场景。它采用了多模态统一架构,支持超长上下文,并且在推理与代码能力方面有所强化。

2025-12-02 15:24:39 282

原创 RAG从入门到精通(十二)——检索后优化技术

重排技术核心类型精准度效率适用场景RRF无训练中极高快速融合、低算力场景有监督高中核心业务、追求精准度ColBERT轻量交互中高中高平衡效率与精准度的通用场景API/开源高中无部署成本、多语言场景生成式极高低复杂语义、无标注数据场景时效加权重排业务定制极高时效性敏感的业务场景(叠加使用)重排技术的选择核心是“场景适配”:轻量验证选RRF,核心场景选Cross-Encoder/ColBERT,复杂语义选RankGPT,时效敏感场景叠加时效权重。

2025-12-01 16:59:55 1042

原创 RAG从入门到精通(十一)——索引优化技术

句子滑动窗口检索是 RAG(检索增强生成)场景中针对 “长文本碎片化检索” 设计的核心策略,核心原理是以句子为基本单元,通过可滑动的窗口截取连续句子块,既保留局部语义的完整性,又通过窗口重叠避免信息断裂,解决了 “固定长度切分易割裂语义、纯单句检索上下文缺失” 的问题。父子文本块检索是RAG系统中解决“检索精准度”与“上下文完整性”矛盾的双层检索策略:完整实现代码1.3 前后串联自动扩展上下文前后串联自动扩展上下文(简称“上下文自动扩展”)是RAG系统中针对“固定粒度检索语义不完整”的进阶优化策

2025-12-01 16:47:28 1096

原创 PDF RAG 系统完整方案详解

框架对比:LangChain vs LlamaIndex 不同的设计理念和适用场景精度提升:从简单到复杂的优化策略(Small2Big、Reranker)完整流程:从数据加载到问答的端到端实现工具选择:根据需求选择合适的 PDF 加载工具性能优化:文本分割、向量检索、重排序的权衡。

2025-11-27 18:38:20 777

原创 RAG 系统中的表格数据读取指南 - 6大库详解与对比

是最常见的表格数据格式。CSVLoader和。从 SQL 数据库读取数据需要使用LlamaIndex 的 DatabaseReader或SQLAlchemy。数据库方案特别适合从已有的数据库系统中读取表格数据。Camelot是一个专门用于从 PDF 中提取表格的 Python 库。它提供了一个简洁的 API,能够将 PDF 表格转换为 pandas DataFrame。pdfplumber是一个轻量级的 PDF 文本和表格提取库。相比 Camelot,它更简单易用,但功能较少。

2025-11-27 18:16:58 237

原创 RAG 系统中的 PDF 读取指南 - 5大库详解与对比

PyPDF是 LangChain 社区维护的 PDF 加载器,基于 PyPDF2 库,提供最简单直接的文本型 PDF 读取方案。PyMuPDF(别名 fitz) 是一个高性能的 PDF 处理库,支持 PDF、XPS、EPUB 等多种格式。提供细粒度的 PDF 控制能力,速度极快。针对扫描型PDF(图片型PDF),使用pdf2image进行 OCR 文本识别。这是处理扫描文档的标准方案。是功能最丰富的开源 PDF 解析库。

2025-11-27 18:09:33 384

原创 RAG从入门到精通(十)——检索前处理技术

逻辑路由是基于预定义明确规则实现查询分发的“硬导航”方式,通过“if-else”条件判断、关键词匹配等确定性逻辑,将查询路由至目标处理单元。规则由工程师结合业务场景、数据分布及模块能力手动配置,具备强确定性与可解释性。语义路由是基于查询深层语义意图实现智能分发的“软导航”方式,通过大语言模型(LLM)或嵌入模型(Embedding Model)理解查询本质含义,而非表面关键词,再分发至最适配的处理单元。核心是“理解意图而非匹配字符”,适配复杂、模糊、多意图查询场景。

2025-11-27 15:00:09 560

原创 RAG从入门到精通(九)——Milvus数据库操作介绍及索引类型介绍

FLAT的“Flat”指向量平铺存储,无分层、分区等优化,本质是“原始向量存储+全量遍历比对”,是向量检索的“基准方案”。

2025-11-26 11:01:44 839

原创 RAG从入门到精通(八)——向量数据库介绍

简单来说,向量的存储样式本质是“把‘语义向量’和‘对应的内容’绑定在一起”——小规模场景用本地文件(JSON/CSV)简单绑定,大规模场景用向量数据库通过索引高效绑定。大规模场景(如企业RAG)需用向量数据库(如Milvus、Pinecone)存储,核心是“向量索引+元信息关联”,存储样式通常包含。如果是小规模场景(如个人知识库),可直接用文本文件、CSV等本地格式存储向量,核心是“向量+元信息”的键值对/列表结构。图中展示的是当前工业界常用的向量数据库/向量存储工具,它们的核心功能是。

2025-11-25 15:49:30 767

原创 RAG从入门到精通(七)—— 一文读懂BGE-M3:开源嵌入模型的“全能选手”,稀疏+密集+多向量三合一

如果你需要构建多语言知识库(如跨国企业文档检索),它的多语言密集嵌入能精准对齐不同语言语义;如果你需要处理长文档(如8192 Token的政策文件、小说章节),它的稀疏嵌入能捕捉关键词,多向量嵌入能保留细节;如果你追求低成本高精度检索(如中小公司RAG系统),它的混合检索能力能在普通GPU上实现商用级效果。

2025-11-25 11:45:24 790

原创 RAG从入门到精通(六)——嵌入技术介绍

核心逻辑:“把复杂信息翻译成机器能懂的‘通用语言’”人类通过视觉、听觉、触觉等感官接收信息,最终在大脑中转化为 “神经编码信息”(一种统一的神经信号);而 AI 嵌入技术的本质是将文本、图像、音频等不同类型的信息,转化为统一的 “向量表示”(如 [0.2, 0.5, …, -0.8] 这样的数值数组),让机器能像人类大脑处理神经信号一样,对这些信息进行 “比较、检索、理解”。嵌入技术的核心是 语义映射—— 用数学方法把文本、图像、音频的 “语义含义” 映射到高维空间中的一个点(向量),使得语义越相似的信息,

2025-11-25 11:31:07 1017

原创 RAG从入门到精通(五)——文本分块技术

Unstructured 的分块能力核心是**“先理解文档结构,再智能拆分”**——通过 4 种分块策略(Basic、By Title、By Page、By Similarity),适配不同类型的 PDF 文档。简单来说,ChunkViz 是文本分块的 “可视化调试器”,能让开发者快速找到最适合业务场景的分块策略,避免因分块不合理导致的检索精度下降或模型理解偏差。:每个分块的最大字符数(注意:是 “字符” 不是 “Token”,中文、英文、标点都算 1 个字符);,确保分块“语义完整、主题聚焦”。

2025-11-20 17:18:01 947

原创 RAG从入门到精通(四)——结构化数据读取与导入

对于 JSON 文件,它会直接读取 JSON 的原始字符串(包括 {}、“”、逗号等语法符号),不会将其转换为 Python 字典或列表。使用 LangChain 的 WebBaseLoader 加载并解析网页内容,核心功能是从指定网页(维基百科《黑神话:悟空》词条)中提取信息,并通过配置只保留网页的主体内容,过滤掉广告、导航栏等无关元素。是“懂 Markdown 语法”的加载器,让 Markdown 文件的解析从“纯文本读取”升级为“结构化提取”,是处理 Markdown 文档的最优选择之一。

2025-11-19 22:49:33 1066

原创 RAG从入门到精通(三)——非结构化数据读取与导入

在 LangChain 中, 是处理文本数据的核心数据结构,用于封装原始文本内容及相关元数据,是连接文档加载、分割、存储、检索等环节的基础载体。 的设计目的是标准化文本数据的表示形式,让不同来源(如网页、PDF、本地文件等)、不同格式的文本都能以统一的结构在 LangChain 流程中流转(例如分块、嵌入、检索等)。 是 LangChain 中文本数据的标准化容器,通过 存储核心文本,通过 携带额外信息,确保了从数据加载到最终生成的全流程兼容性和可追溯性,是构建 RAG 等应用的基础组件。 类的定义简化

2025-11-19 16:27:34 836

原创 RAG从入门到精通(二)——快速上手RAG实例

核心逻辑是:先从网页文档中检索与问题相关的内容,再让大模型基于这些内容生成答案,确保回答的准确性和相关性。通过 LCEL 协议,将「检索上下文→构建提示词→调用 LLM→解析结果」的流程封装成一个可直接调用的链(chain)。当执行 chain.invoke(question) 时,数据会按 LCEL 定义的流水线自动流转,最终输出基于维基百科内容的回答。生成阶段:将上下文与问题整合成提示词 → 大模型(DeepSeek)基于提示词生成答案。

2025-11-19 14:41:46 467

原创 RAG从入门到精通(一)——什么是RAG?

本文详细介绍了Cursor编程工具的安装配置与使用方法。主要内容包括:1)将Cursor安装到指定目录的操作步骤;2)常用键盘快捷键汇总;3)功能详解,涵盖从VS Code迁移、自动完成、AI聊天、代码生成与编辑、代码库索引、代码重构、隐私模式等15项核心功能。文章提供了具体操作方法和实用示例,帮助用户快速掌握Cursor的各项功能,提升编程效率。特别介绍了AI相关功能的配置使用,包括模型选择、自定义API密钥、长上下文处理等高级特性。

2025-11-18 21:36:36 822

原创 Cursor新手必看:快速配置Python环境指南

Python作为当今最热门的编程语言之一,在数据分析、人工智能、Web开发等诸多领域都有着广泛应用。而Cursor则是一款功能强大的编程工具,支持多种语言开发,其代码补全、语法高亮等功能,能显著提升开发效率。对于新手而言,在Cursor中快速配置好Python环境,是开启编程之旅的重要一步。本文就将详细为大家介绍这一过程。##1. Python与Cursor的关系Python是一种编程语言,要运行.py文件,就必须安装编译环境。

2025-11-18 21:20:40 1191

原创 高级RAG策略学习(六)——Contextual Chunk Headers(CCH)技术

CCH技术深度解析:上下文块标题增强RAG性能 CCH(Contextual Chunk Headers)是一种为文本块添加结构化上下文标签的技术,通过前置文档标题、章节等高层级信息,解决RAG系统中文本块碎片化导致的检索失效和LLM误解问题。其核心价值体现在: 提升检索准确率:通过明确文本块的上下文归属,减少指代模糊导致的漏检(召回率提升20%-30%); 降低LLM幻觉:提供结构锚点避免孤立解读(幻觉率降低约25%)。 实现流程分为三步骤: 生成CCH:利用LLM提取文档标题或复用现有结构化信息; 嵌入

2025-09-05 23:31:18 1077

原创 高级RAG策略学习(五)——llama_index实现上下文窗口增强检索RAG

query = "解释森林砍伐和化石燃料在气候变化中的作用"灵活的数据处理管道:通过实现模块化处理智能的上下文增强提供语义连贯的检索结果强大的后处理机制实现检索后的内容增强统一的模型接口:支持多种LLM和嵌入模型的无缝切换import osimport sys# 从.env文件加载环境变量# 设置通义千问API密钥环境变量# LlamaIndex全局设置,使用通义千问模型EMBED_DIMENSION=1536 # 通义千问嵌入模型的维度# 下载所需的数据文件import os。

2025-09-05 22:58:22 1184

原创 高级RAG策略学习(四)——上下文窗口增强检索RAG

选择维度框架工具路径(如LlamaIndex)自定义函数路径langchain开发效率高(开箱即用)中(需要编码实现)灵活性中(受框架限制)高(完全可控)维护成本低(框架维护)高(自主维护)定制化程度低高适用场景快速原型、标准需求复杂业务、特殊需求索引化分块:为文档块建立有序索引,支持精确的位置检索邻居扩展策略:智能获取相邻上下文,增强信息完整性重叠处理算法:优雅处理块间重叠,保持文本连贯性对比评估框架:同时提供基线和增强结果,便于效果分析。

2025-09-05 22:36:24 1279

原创 高级RAG策略学习(三)——分块大小对RAG系统的影响

RAG系统的分块大小评估是一个多维度的优化问题,需要综合考虑响应时间、准确性和成本等因素。通过系统化的评估方法和合理的技术架构,可以为不同应用场景找到最优的配置方案。本文提供的评估工具和方法论为RAG系统的性能优化提供了实用的技术指导,有助于开发者构建更高效、更准确的检索增强生成系统。# @Author: 陈伟峰"""RAG系统分块大小评估工具本模块用于评估不同分块大小对RAG系统性能的影响,包括响应时间、忠实度和相关性等指标。通过对比不同chunk_size的表现,帮助选择最优的文档分块策略。

2025-09-05 00:20:51 1078

原创 高级RAG策略学习(二)——自适应检索系统原理讲解

自适应RAG技术解析:智能检索新范式 自适应RAG技术通过智能查询分类和定制化检索策略,解决了传统RAG"一刀切"检索的局限性。该系统包含四个核心组件:查询分类器识别用户需求类型(事实/分析/观点/上下文),自适应检索策略库为每类查询提供专属检索方案,LLM集成增强各环节处理效果,以及GPT模型生成适配回答。实现流程分为查询分类、策略执行、结果排序和回答生成四步,针对不同类型查询采用精准聚焦、多维度覆盖、多视角收集等差异化检索方法,显著提升了事实查询的精准度、分析查询的全面性和观点查询的

2025-09-04 22:36:00 1124

原创 高级RAG策略学习(一)——自适应检索系统

文本分割: 使用将长文本分块向量化: 通过将文本转换为向量向量存储: 使用FAISS构建高效的向量数据库检索器: 通过创建检索接口。

2025-09-02 01:13:13 1036

原创 LangGraph从入门到精通(二)——条件边与循环流程实现工具调用

例如下方左右有两个并行运行流程,其中左侧的两个并行节点均有连接到 END 节点,右侧的只有一个,但是最终结果是一模一样的,只要不把 状态 看成是 传递,而是整个图的全局变量,每个节点执行的都是 修改 操作即可。• path_map:可选参数,类型为一个字典,用于表示 返回的path和 节点名称 的映射关系,如果不设置的话,path 的返回值应该是 节点名称。• then:可选参数,在执行 path 节点之后统一选择节点,通过该设置就不需要为后续的每一个节点都设置一个统一的关联节点。普通边 可以直接使用。

2025-08-20 11:41:15 839

原创 LangGraph从入门到精通(一)——LangGraph介绍与基础组件

LangGraph 是一个构建具有 状态、多角色 应用程序的库,用于创建智能体和多智能体工作流循环、可控制性和持久性。LangGraph 允许定义设计循环、条件判断的流程,这对于高级 Agent 非常重要,这和传统的有向无换图(DAG)解决方案区分开。因为 LangGraph 作为最底层的框架,所以涉及的组件都是最基础的,并没有过度封装,允许开发者实现对应用程序流程和状态的精细控制(自由度极高),而且LangGraph 可以便捷集成持久化方案、任意节点中断交互、修改状态等特性。

2025-08-20 09:07:53 1503

原创 Docker 拉取镜像超时?一文带你彻底解决!

方案适用场景是否推荐🔥 配置 Docker 使用代理有代理能力的服务器✅ 推荐🧊 离线导入镜像 tar 包无法出国但有联网电脑✅ 推荐🚀 配置加速器DOM 查询失败但有项目超时✅ 中推荐🏢 镜像仓库同步团队企业部署✅ 企业推荐。

2025-08-07 17:17:44 1442

原创 langchain从入门到精通(四十三)——RAG评价框架及评价指标介绍

衡量生成答案中的信息是否完全来自检索到的上下文(无幻觉信息)。用于衡量生成的答案是否基于给定的上下文,确保答案的可靠性。计算方法是将答案拆解为一组声明,然后判断每个声明能否从原始背景中得出,忠实度评分 = 可以从上下文中得到的观点数量 / 生成答案中的总观点数量。

2025-08-05 10:13:16 799

原创 解锁非结构化数据价值:unstructured 库常用处理方法全解析

from unstructured . chunking import chunk_elements # 按最大字符数分块 chunks = chunk_elements(elements , chunk_size = 500 , # 每个块最多500字符 chunk_overlap = 50 # 块之间重叠50字符)库以简洁的 API 解决了非结构化数据处理的痛点,让开发者无需深陷格式解析的细节,专注于数据价值的挖掘。无论是日常办公中的文档处理,还是企业级的知识库构建,它都能成为高效的助力工具。

2025-08-05 09:32:59 1012

原创 PDF 文本提取技术深度对比:基于规则与基于模型的两种实现

特性(PyPDF2)核心技术PDF 内部对象解析计算机视觉 (CV) + OCR + NLP处理能力仅限数字原生 PDF 的文本可处理数字原生及扫描版 PDF、图片结构化信息丢失所有布局和元素类型保留标题、列表、表格等丰富结构准确性对纯文本流准确,但易受多栏、图表干扰极高,能准确区分并提取不同内容块速度非常快较慢,尤其hi_res策略涉及深度学习模型依赖轻量,仅PyPDF2较重,依赖 PyTorch、Detectron2 等多个库最佳场景快速提取简单、纯文本报告或书籍。

2025-08-05 09:22:25 779

原创 用 Python 构建高质量的中文 Wikipedia 语料库:从原始 XML 到干净段落

最终生成适用于下游自然语言处理(NLP)任务(如模型预训练、知识库构建、RAG 数据源)的干净语料。它专注于解决原始维基数据中包含大量噪声(如 HTML 标签、维基标记、模板信息)的问题。为了让长文本适用于有长度限制的模型,需要将清洗后的文本切分成合适的段落。该脚本主要通过命令行参数接收输入,并输出一个处理后的文件。这是整个脚本技术含量最高的部分。来清除维基百科特有的标记语言和格式噪声。以下是脚本中几个关键函数的简化示例代码。

2025-08-05 09:09:51 1139

原创 langchain从入门到精通(四十二)——全面剖析之Memory

步骤1:先看API:https://api.python.langchain.com/en/latest/langchain_api_reference.html#module-langchain.memory步骤2:再看源码:langchain/libs/core/langchain_core/memory.py```python"""Chains 中记忆的抽象基类。记忆指的是 Chains 中的状态。

2025-07-31 16:47:41 859

原创 langchain从入门到精通(四十一)——基于ReACT架构的Agent智能体设计与实现

ReACT。在 LangChain 中,要想创建基于 ReACT 架构的智能体,其实也非常简单,导入 AgentExecutor、create_react_agent,在实例化的时候,传递对应的 工具 + prompt 即可,其中 ReACT 架构的智能体 prompt 是有要求的。query: str = Field(description="执行谷歌搜索的查询语句")# 1.定义工具与工具列表"一个低成本的谷歌搜索API。"当你需要回答有关时事的问题时,可以调用该工具。

2025-07-09 20:21:32 1755

原创 langchain从入门到精通(四十)——函数调用技巧与流程

由于市面上的大语言模型众多,并不是所有的大语言模型都支持 函数调用 这个功能的,还存在相当多的大模型并不支持(特别是开源模型),对于这类模型,其实也可以通过编写特定的 Prompt,即可让模型调用适当的工具,原理其实就是让大语言模型尽可能按照特定的格式进行输出(例如输出函数的调用参数 JSON 数据)。”,这个时候链应用就崩溃了,所以在生产环境中,涉及到 函数调用、路由逻辑 等需要规范化数据的内容,尽可能使用支持 函数调用 的大语言模型,避免程序变得很脆弱。

2025-07-09 19:48:55 1254

原创 langchain从入门到精通(三十九)——大模型函数调用与agent开发

创建自定义工具的3种技巧与使用场景在使用 函数调用 或者创建 智能体 时,我们需要提供 工具列表,以便大语言模型可以使用这些工具,虽然 LangChain 内部集成了大量的工具和工具包,但并不一定适合我们的业务场景,更多场合下我们会使用自定义工具,在 LangChain 中提供了 3 种构建自定义工具的技巧:@tool 装饰器、StructuredTool.from_function()类方法、BaseTool子类,不同的方式有不同的优缺点与应用场景。

2025-07-09 17:13:20 867

git常用的操作手册和指南

1. **配置 Git**:设置用户名和邮箱,确保提交记录中包含正确的用户信息。 2. **初始化仓库**:在本地目录中创建一个新的 Git 仓库。 3. **克隆仓库**:从远程仓库复制一份到本地,获取已有项目的副本。 4. **查看状态**:检查当前文件的状态,了解哪些文件被修改、删除或新增。 5. **添加文件**:将修改添加到暂存区,为提交做好准备。 6. **提交更改**:将暂存区的内容保存到本地仓库的历史记录中。 7. **查看历史**:查看项目的提交历史,了解更改的时间线。 8. **推送更改**:将本地提交的更改发送到远程仓库,与他人共享更新。 9. **拉取更改**:从远程仓库获取最新的更新,并将其合并到本地仓库。 10. **分支管理**:创建、切换和删除分支,便于独立开发不同的功能或版本。 11. **合并分支**:将不同分支的更改合并到一个分支中,整合开发成果。

2024-08-27

基于智谱AI和LangChain实现RAG应用代码

基于智谱AI和LangChain实现的RAG(Retrieval-Augmented Generation)应用是一种前沿的自然语言处理技术,结合了强大的语言生成模型和高效的检索系统。通过智谱AI的语言模型,RAG应用能够理解和生成高质量的自然语言文本,而LangChain提供的检索功能则确保了回答的准确性和相关性。 在这个系统中,用户提出的问题首先通过向量数据库进行检索,从中提取出最相关的文档或片段。随后,智谱AI模型利用这些检索到的上下文生成一个简明、准确的回答。通过集成会话记忆功能,RAG应用还支持多轮对话,能够保持上下文连贯性,适应复杂的交互需求。 这种技术的应用场景广泛,从智能问答系统、在线教育,到客户支持,RAG应用都能显著提升用户体验,提供更有针对性和深度的回答。总的来说,基于智谱AI和LangChain的RAG应用为下一代智能对话系统奠定了坚实的技术基础。

2024-08-27

基于LangChain和智谱API搭建知识库

基于LangChain和智谱API的知识库是一个强大的资源,它结合了自然语言处理和知识图谱技术,为用户提供全面且准确的知识检索和查询功能。LangChain是一个先进的语言处理引擎,能够实现文本的语义理解和分析,从而从大量的文本数据中提取有用的信息。智谱API则是一个基于知识图谱的搜索引擎,它能够将不同领域的知识进行关联和组织,形成一个完整的知识网络。 通过LangChain和智谱API的结合,用户可以方便地利用自然语言进行查询,无需专业的检索技巧或复杂的搜索语法。只需要输入相关领域的问题或关键词,系统就能自动理解用户的意图,并从知识库中找到最相关的资源。无论是科学、技术、医学还是人文社科领域的问题,都可以得到及时和正确的答案。 此外,LangChain和智谱API还支持多语言搜索和跨语言信息的处理。不论用户使用的是中文、英文还是其他语言,系统都能够进行准确的语义分析和知识检索。 总之,基于LangChain和智谱API的知识库提供了强大的语义理解和知识检索功能,帮助用户快速获取所需的信息,提升了信息检索的效率和准确性。

2024-08-26

百度的关键字爬取相关图片

百度关键字爬虫是一种用于从百度搜索引擎中抓取相关搜索结果的工具。它可以根据用户指定的关键字进行搜索,并将搜索结果保存为结构化的数据,如网页链接、标题、描述等信息。 Python编程语言:百度关键字爬虫常使用Python编写。如果您还不熟悉Python,可以学习一些基础知识,如语法、数据类型、循环和函数等。 爬虫框架:有很多Python爬虫框架可供选择,如Scrapy、BeautifulSoup和Selenium等。这些框架可以帮助您更方便地实现爬虫功能,处理网页和提取数据。您可以根据自己的需求选择合适的框架。 百度搜索API:如果您想更高效地获取百度搜索结果,可以考虑使用百度搜索API。该API提供了一系列接口,可以帮助您进行搜索,并获取相关的信息。您需要注册百度开发者账号,并获取API密钥。 数据存储:爬取的数据可以保存在本地文件中,也可以存储在数据库中,如MySQL或MongoDB等。您可以根据自己的需求选择适合的存储方式。 反爬虫策略:为了防止被百度的反爬虫机制封禁,您需要了解相关的反爬虫策略,并使用一些技巧来规避检测,如设置合适的爬取频率、使用代理IP和User-Age

2024-08-26

用于图像分割的代码源码

unet++实现代码参考源码

2024-04-21

图像分割的学习参考代码

图像分割的学习参考代码

2024-04-21

yolo v7的训练代码,包括导入导出

yolov7 的训练代码,包括数据集的制作,训练代码;

2024-04-20

实现一个简单的视频对象追踪应用,该应用支持多种追踪算法,并允许用户实时选择和追踪视频中的对象 这种技术在许多领域都有广泛的应用

实现一个简单的视频对象追踪应用,该应用支持多种追踪算法,并允许用户实时选择和追踪视频中的对象。这种技术在许多领域都有广泛的应用,包括安全监控、人机交互和自动驾驶车辆等。

2024-04-18

从指定路径读取图像文件、利用OpenCV进行图像处理,以及使用Caffe框架进行深度学习预测的过程

从指定路径读取图像文件、利用OpenCV进行图像处理,以及使用Caffe框架进行深度学习预测的过程。程序能够有效地对图像进行分类预测,并将结果直观地显示出来,适用于教学或研究目的。

2024-04-18

Python库d和OpenCV来实现眼部闭合检测,主要用于评估用户是否眨眼

这段代码使用了Python库d和OpenCV来实现眼部闭合检测,主要用于评估用户是否眨眼。下面是代码的主要步骤和相关的代码片段: ### 步骤一:导入必要的库和设置参数 首先,代码导入了必要的Python库,如dlib、OpenCV和scipy。通过`argparse`设置了输入视频和面部标记预测器的参数。 ```python from scipy.spatial import distance as dist from collections import OrderedDict import numpy as np import argparse import time import dlib import cv2 ``` ### 步骤二:定义面部关键点索引 使用`OrderedDict`定义了包含68个点的面部关键点,用于眼部分析。 ```python FACIAL_LANDMARKS_68_IDXS = OrderedDict([ ("mouth", (48, 68)), ("right_eyebrow", (17, 22)), ("left_e

2024-04-18

使用Python库dlib和OpenCV来实现面部特征点的检测和标注

使用Python库dlib和OpenCV来实现面部特征点的检测和标注。

2024-04-18

基于Opencv实现答题卡识别系统中的各个功能

实现答题卡识别系统中的各个功能。每个步骤都是自动化处理的关键部分,确保系统能够准确地读取和评分答题卡。自动化地完成了从读取图像到输出成绩的整个流程通过填涂密度判断学生选择,通过计算填涂区域的像素密度来判断学生的的选项。然后将这个选择与答案键中的正确选项进行比较,统计出正确的答案数量。

2024-04-18

停车位识别基于深度学习的停车位识别系统利用计算机视觉技术来自动检测和监控停车位的占用情况 地平线

基于深度学习的停车位识别系统利用计算机视觉技术来自动检测和监控停车位的占用情况。这种系统通常通过安装在停车场的摄像头来实现,摄像头捕捉的图像数据被送入深度学习模型进行分析。这些模型能够识别出图像中的停车位,并确定每个停车位是否被占用。此技术不仅提高了停车效率,减少了寻找停车位的时间,还可以被应用于智能交通系统中,实时更新停车信息,为驾驶者提供便利。深度学习模型的训练过程包括大量的图像数据,这些数据需要标注停车位的位置和状态,以训练模型准确识别。

2024-04-17

全景图像拼接;实现特征点检测与描述子

特征点检测与描述子计算: 使用 SIFT 算法检测图像的关键点,并计算每个点的描述子。这一步是识别图像中的特征并提取有用信息的关键步骤。 特征点匹配: 使用 KNN 和比值测试来筛选良好的匹配点。这一步是确保两图中对应的特征点确实相似,为后续的图像对齐打下基础。 计算单应性矩阵并进行图像变换: 使用 RANSAC 算法基于匹配点对计算单应性矩阵,这一矩阵能够描述一张图像到另一张图像的透视变换。 使用该矩阵通过透视变换将一张图像变形,使其与另一张图像对齐。 图像拼接: 将变换后的图像与另一张图像合并,形成一个单一的更大的图像。 结果展示: 可选地显示特征点的匹配情况,帮助理解两图是如何通过匹配点关联起来的。 ———————————————— 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 原文链接:https://blog.csdn.net/weixin_42917352/article/details/13789

2024-04-17

基于Opencv与tesseract 实现的文本识别

应用场景: 文档数字化:将纸质文档扫描后识别为数字文本。 自动化表单处理:从填写的表单中提取信息。 车牌识别:用于交通监控或自动收费系统。 辅助技术:帮助视觉障碍人士阅读印刷材料。 多语言支持:Tesseract 支持100多种语言的识别。 高度可定制:用户可以训练Tesseract来识别新的字体或优化特定语言的识别。 多种输出格式:Tesseract 可以输出普通文本、hOCR(带有布局信息的HTML)、PDF等格式。 集成易用:可以通过命令行使用,也可通过其API集成到其他应用程序中,比如通过pytesseract在Python中使用。

2024-04-17

基于OpenCV与模版匹配 实现信用卡、银行卡号识别

基于OpenCV与模版匹配 实现信用卡、银行卡号识别

2024-04-17

FasterRcnn.zip

FasterRcnn的代码复现

2021-11-17

MTCNN相关代码完美实现

深度学习 ,目标检测 、卷积神经网络

2021-11-05

Opencv从入门到跑路images.zip

用来实现博客上的资料

2021-07-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除