- 博客(612)
- 资源 (17)
- 收藏
- 关注
原创 3 直接用llama.cpp 运行一个模型
本文介绍了从Huggingface下载DeepSeek-R1-Distill-Qwen-1.5B模型并转换为GGUF格式的完整流程。首先需安装gitLFS克隆模型仓库,推荐使用Python 3.11+版本进行转换。详细说明了使用llama.cpp工具进行模型量化的步骤,包括不同量化类型的选择及其对应的参数设置(如Q4_K_M、Q5_K等),量化后模型体积可从3.5G缩减至1.0G左右。同时提供了加载量化模型进行对话测试的方法,以及使用llama-bench进行基准测试的指令。文末还列出了相关技术资源链接。
2025-06-01 11:27:36
1246
原创 2 编译llama.cpp
本文介绍了llama.cpp项目在CPU环境下的构建过程。使用git克隆项目后,通过CMake进行构建时遇到了LIB_CURL的配置问题,特别是include目录设置失败,最终选择取消curl模块支持。虽然不清楚具体功能差异,但在VS2022中成功编译Release版本后,输出了最终目录结构。整个过程反映了CMake配置中可能遇到的依赖项问题及解决方案。
2025-06-01 11:25:06
146
原创 什么是llama.cpp
llama.cpp是一个高效轻量的C/C++框架,用于在普通硬件上运行大型语言模型。它支持多种量化技术(1.5-8位)和硬件加速(CPU/GPU),特别优化了Apple Silicon性能。核心特性包括GGUF模型格式、多模态支持、128k长上下文处理,以及Metal/CUDA/Vulkan后端。相比HuggingFace等框架,它更轻量、低内存,适合本地部署,但配置要求较高。该项目持续演进,已支持多GPU并行、滑动窗口注意力等先进功能。
2025-05-31 22:43:02
846
原创 Magentic-One:用于解决复杂任务的通用多智能体系统
Magentic-One简介是一款高性能通用代理系统,旨在解决此类任务。Magentic-One 采用多代理架构,其中主代理 Orchestrator 负责指挥其他四个代理解决任务。Orchestrator 负责规划、跟踪进度,并重新规划以从错误中恢复,同时指挥专门的代理执行各种任务,例如操作 Web 浏览器、浏览本地文件或编写和执行 Python 代码
2025-05-27 10:39:44
1080
原创 常规了解智能体记忆模块
我们最看好的 LLM 系统组件之一是记忆。正是这种“记忆”能力让我们热衷于探索。我们认为,用户与LLM)之间的互动将会越来越多——聊天机器人将成为 LLM 应用的主流。这意味着,在对话中,用户将交换越来越多有价值的信息——例如,用户的喜好、他们的朋友是谁、他们的目标是什么。学习这些属性,并将其融入到应用程序中,可以极大地提升用户体验。在探索记忆的过程中,我们认为整理一个用例示例会很有帮助,它可以激励我们开展大量工作,并为后续工作奠定基础。更多资讯参考和。
2025-05-27 10:22:54
652
原创 LangMem学习第四天 用LLM与长期记忆结合
本文探讨了将长期记忆与大型语言模型(LLM)结合使用的实现方法,重点介绍了LangMem中的两种长期记忆模式:HotPath和Background。HotPath模式在每次对话时实时更新长期记忆,适用于需要即时记忆的场景。我们通过LangGraph内存存储和自定义管理器实现了HotPath模式,具体步骤包括:从存储中搜索用户相关的长期记忆、将记忆嵌入系统消息、将对话内容反映至长期记忆。通过代码示例展示了如何更新和参考长期记忆,并验证了记忆系统在对话中的应用效果。
2025-05-23 10:21:02
956
原创 LangMem学习第三天 记忆存储管理
LangMem利用LangGraph的持久化功能(BaseStore)作为存储后端,提供了长期记忆持久化的API。通过create_memory_store_manager生成StoreManager,可以管理长期记忆,并使用Pydantic定义任意记忆结构。记忆数据通过分层结构管理,第一层为chat,第二层为用户ID,支持针对每个用户的记忆管理。示例代码展示了如何使用InMemoryStore进行记忆的存储、更新和删除,并通过LangGraph的工作流程实现记忆的持久化。最终,记忆数据可以根据用户输入进行
2025-05-23 10:09:23
1230
原创 LangMem学习第二天 记忆管理
MemoryManager是一个基于LLM的API,用于从对话中提取关键信息并管理长期记忆。它支持添加、更新和删除记忆,并通过定义具体的数据结构(如UserFoodPreference)来优化信息整理。代码示例展示了如何使用Pydantic创建记忆结构,并通过create_memory_manager生成MemoryManager实例。该API利用LLM工具调用来更新记忆,但不同模型的准确性可能有所差异。示例中,用户对话被
2025-05-22 14:50:59
882
原创 一天学会Langmem 让AIAgent有记忆系统
LangMem是一个帮助AIAgent从交互中学习和适应的工具,提供从对话中提取重要信息、优化代理行为以及维持长期记忆的功能。它支持与任何存储系统集成,并与LangGraph存储层原生兼容,使代理能够不断改进、个性化响应并保持行为一致性。LangMem的核心特点包括内存API、内存管理工具、后台内存管理器以及与LangGraph的长期记忆存储集成。长期记忆分为语义记忆、情节记忆和过程记忆三种类型。安装要求Python 3.11,并支持多种LLM提供商的API密钥配置。通过InMemoryStore存储和检索
2025-05-22 09:40:00
875
原创 如何提高Chatbot的可靠性,降低幻觉
截至2025年5月13日,AIChatBot的可靠性和幻觉问题仍是人工智能领域的核心挑战。幻觉指AI生成虚假或无意义信息并将其呈现为真实,这一问题在大语言模型(LLMs)中尤为突出,显著影响其应用价值。最新研究表明,尽管技术进步,幻觉问题在某些新型推理模型中反而加剧。例如,OpenAI的o3和o4-mini模型在简单事实性问题测试中的幻觉率分别高达51%和79%。幻觉的根源包括训练数据问题、模型固有局限和用户交互影响。为降低幻觉,技术层面可通过构建高质量数据集、优化模型架构、使用检索增强生成(RAG)等方法
2025-05-21 13:50:58
827
原创 RAG确实不够用,CAG必须要来
论文《Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks》提出了一种新的缓存增强生成(CAG)方法,旨在解决检索增强生成(RAG)在知识密集型任务中的挑战。RAG虽然通过结合外部知识检索和语言模型生成提升了生成质量,但存在检索延迟、检索错误和系统复杂性等问题。CAG通过预加载所有相关知识资源到大型语言模型(LLM)的扩展上下文中,并缓存模型的运行时参数,消除了实时检索的需求,从而显著降低了延迟和错
2025-05-21 13:45:25
596
原创 LangGraph范式-usaco
USACO范式利用LangGraph构建了一个智能代理系统,专门用于解决算法竞赛问题。该系统结合了大语言模型(LLM)、外部工具(如代码执行器)和图结构,模拟程序员解决算法问题的过程,包括问题理解、代码生成、测试验证和调试。系统通过三个主要部分实现:反思、检索和人机协同。反思部分通过提示代理反思测试用例结果以纠正错误;检索部分通过“情景记忆”从编程问题语料库中检索高质量示例;人机协同部分允许用户辅助代理找到更好的答案。系统核心组件是Python REPL工具,用于执行和验证代码,设计简单但功能强大,适合快速
2025-05-20 10:49:58
857
原创 LangGraph范式-web_voyager
WebVoyager是一个基于多模态大模型的AI代理,旨在通过浏览器API与网页交互,完成用户提出的任务。其核心功能是根据用户的问题、图像或请求,生成网页操作的工具响应,并返回最终答案。WebVoyager通过查看带注释的浏览器屏幕截图,选择下一步操作,其架构基于推理和行动(ReAct)循环。该代理使用图像注释作为UI功能,并通过工具控制鼠标和键盘在浏览器中执行操作。其工作流程包括接收用户输入、分析网页内容、生成操作、执行操作并获取新的网页状态,最终输出答案。WebVoyager的状态包括当前网页截图、用户
2025-05-20 10:45:34
1128
原创 Labubu怎么火爆全球了? 也来赚一笔?
Labubu 是香港艺术家 Kasing Lung 在 2015 年创造的角色,属于“怪物系列”(The Monsters),最初出现在三部曲绘本中,灵感来源于北欧神话和童话故事。Labubu 被描述为一个“调皮而略带凶猛”的精灵角色,拥有圆润的毛茸茸身体、宽大的眼睛、尖尖的耳朵和一排锋利的牙齿,形成了标志性的调皮笑容。这种设计结合了可爱与诡异,吸引了不同年龄段的消费者。
2025-05-16 20:37:07
757
原创 LangGraph范式-sql agent
SQLAgent智能体通过一系列步骤处理用户查询:首先从数据库中获取可用表并确定相关表,接着获取这些表的架构信息。基于用户问题和架构,智能体生成SQL查询,并使用语言模型检查查询中的常见错误。
2025-05-16 10:09:41
993
原创 LangGraph范式-tot
Thoughts on Thoughts(ToT)范式通过模拟人类的多步骤推理过程,结合语言模型(LLM)的生成能力,实现复杂问题的分步解决。ToT灵感来源于“思维树”方法,通过生成多个推理路径、评估和选择最佳路径来提升问题解决的准确性和鲁棒性。ToT范式通过构建推理图,将复杂问题分解为多个子步骤,每个步骤由LLM生成多个候选答案,并通过评估机制选择最优答案,逐步逼近最终答案。其核心思想包括多路径推理、评估与选择、图结构管理和迭代优化。ToT特别适用于需要深层推理的任务,如数学问题求解、逻辑推理或复杂决策。
2025-05-16 10:05:52
1158
原创 LangGraph范式-tnt-llm
TNT-LLM是微软为Bing Copilot开发的一种分类系统,旨在从对话日志中生成可解释的用户意图分类体系,并利用该体系进行日志标注和分类器训练。该系统特别适用于处理大规模对话数据,支持用户行为分析和模型优化等下游任务。TNT-LLM在LangGraph中实现为一个多步骤工作流,利用状态图协调多个LLM调用和数据处理步骤。其核心
2025-05-15 10:08:10
864
原创 LangGraph范式-Storm
STORM(Structured Topic-based Outline and Research Machine)是一个由大型语言模型(LLM)驱动的自动化研究与内容生成框架,最初由Stanford OVAL实验室提出,用于生成类似维基百科的文章。在LangGraph的实现中,STORM被重构为基于多智能体协作的工作流,结合LangChain生态工具,强调结构化研究和内容生成。STORM的工作流程包括主题探索、大纲生成、内容生成等阶段,通过多智能体协作和外部工具(如Tavily搜索引擎)获取实时信息,逐步
2025-05-15 09:55:28
880
原创 LangGraph范式-Plan-and-Execute
Plan-and-Execute范式是一种多步骤任务处理框架,其核心思想是先制定详细计划,再逐步执行,并在必要时进行动态调整。该范式受到BabyAGI项目和Plan-and-Solve论文的启发,强调长期规划,适合复杂任务。与ReAct范式(边思考边行动)不同,Plan-and-Execute通过明确的步骤分解和执行,避免了局部最优或循环问题。其主要步骤包括:规划(使用LLM生成多步骤计划)、执行(逐项完成任务并记录结果)、重新规划(根据执行结果调整计划)。该范式适合需要多阶段推理的任务,但依赖LLM的性能
2025-05-14 10:55:10
765
原创 LangGraph范式-LLMCompiler
LLMCompiler是一种代理架构,旨在通过有向无环图(DAG)中的即时执行任务来加速代理任务的执行,并减少对大型语言模型(LLM)的调用次数以节省成本。它包含三个主要组件:规划器(Planner)、任务获取单元(PlanandSchedule)和连接器(Joiner)。LLMCompiler借鉴了编译器的设计理念,将用户的高级指令分解为一系列低级操作,并通过图结构动态执行这些操作。它特别适用于需要任务规划、动态调度和多步骤执行的场景,如自动化工作流、复杂查询处理或多工具协作。LLMCompiler的核心
2025-05-14 10:51:35
614
原创 LangGraph范式-LATS
LATS(LLMAgentTreeSearch)是一种结合大型语言模型(LLM)和树搜索(TreeSearch)的AIAgent开发范式,旨在解决需要复杂推理和探索的问题。LATS通过将LLM的生成能力与树搜索的系统性探索相结合,模拟人类在决策过程中的试错和优化行为。它特别适用于多步推理、假设验证或优化任务,如数学推理、规划任务或代码调试。LATS体现了现代AIAgent开发的趋势,
2025-05-13 10:35:05
1326
原创 LangGraph范式-retries
在LangGraph中,重试机制(Retries)是提高工作流可靠性和鲁棒性的关键,尤其在处理不可靠的外部依赖(如LLM、API、工具)或动态用户交互时。该机制通过自动或有条件地重新尝试执行失败的节点,确保工作流的顺利进行。核心流程包括初始提取、结果验证、错误修正、重试循环和最终输出。重试策略支持固定重试次数、指数退避、错误
2025-05-13 10:32:22
801
原创 LangGraph范式-langgraph_code_assistant
langgraph_code_assistant 是一个多功能的代码助手代理,旨在通过多轮交互、工具调用和状态管理,帮助用户生成、调试、优化和解释代码。它能够处理复杂的编程任务,如编写Python脚本、调试错误、生成测试用例和解释代码逻辑。该助手通过动态调整交互流程,基于用户输入或代码执行结果决定下一步操作,并集成外部工具(如
2025-05-09 17:27:23
841
原创 LangGraph范式-information-gather-prompting
Information-GatheringPrompting是LangGraph中通过提示工程(Prompt Engineering)设计的工作流,旨在系统性地从用户或外部数据源收集信息。该方法适用于多轮交互任务,如客户信息收集、问卷调查、诊断对话或任务分解。LangGraph的图结构特别适合此类任务,其主要特征包括动态调整提示以收集缺失信息、根据用户输入路由到不同节点(如澄清问题、验证数据),以及保持交互状态以确保对话连贯性和信息完整性。提示工程的核心在于提示设计,关键策略包括动态提示、上下文保持、用户友
2025-05-09 17:22:02
843
原创 LangGraph范式-Chat Bot Evaluation as Multi-agent Simulation
ChatBotEvaluationasMulti-agentSimulation是一种通过LangGraph模拟用户与聊天机器人交互的自动化评估方法,旨在提升测试效率并解决传统手动测试的耗时和复现难题。该方法通过模拟用户(SimulatedUser)与聊天机器人(ChatBot)之间的多代理交互,测试机器人在不同场景下的表现,尤其适用于客户支持机器人等复杂对话场景。核心组件包括: SimulatedUserNode:基于LLM(如ChatOpenAI)生成用户输入,模拟真实用户行为(如航空客户
2025-05-09 17:18:31
938
原创 LangGraph范式-RAG-Agentic_RAG
当我们想要决定是否从索引中检索时,检索代理很有用。为了实现检索代理,我们只需授予 LLM 访问检索工具的权限。该范式的特点:支持动态决策,例如是否调用检索工具、是否重写查询、是否生成最终答案。
2025-04-25 15:19:37
815
原创 LangGraph范式-RAG-Adaptive RAG
Adaptive RAG 是一种 RAG 策略,它将 (1) 查询分析与 (2) 主动/自我纠正 RAG 结合在一起。通过动态调整检索和生成策略来优化答案质量。参考论文:https://arxiv.org/abs/2403.14403安装依赖。
2025-04-25 15:17:35
896
原创 LangGraph之RAG范式-Corrective RAG使用LocalLLM
LLM和 CRAG大致相同,唯一的不同点在于特别使用了本地 LLM(如 Llama3 或 Mistral)和本地嵌入模型(如 Nomic 嵌入),适合离线或隐私敏感场景。
2025-04-22 11:11:21
993
原创 LangGraph之RAG范式-Corrective RAG
是一种改进的 RAG 技术,旨在解决传统 RAG 的局限性。传统 RAG 通过从外部知识库检索相关文档来增强语言模型的生成能力,但如果检索到的文档不准确或不相关,可能会导致生成的内容出现误导或错误。CRAG 通过引入。
2025-04-22 09:47:43
1125
原创 目前主流的AI Agent开发框架对比和分析
初学者或小团队Coze是最佳选择,低门槛且快速上线,适合简单任务;FastGPT适合国内预算有限的知识库场景。企业级复杂应用Dify提供开源灵活性和 RAG 能力,适合私有化需求;LangChain和AutoGen适合技术团队开发多代理或动态任务系统。云原生与多模态Google ADK是生产级部署的首选,尤其适合 Google 生态用户,但成本较高。预算与本地化FastGPT和Dify的国内支持和低成本优势明显,适合本地化场景。选择框架时,需权衡团队技术能力、预算、部署需求和场景复杂度。
2025-04-15 13:57:31
1119
原创 24天学会ComfyUI-1 初探新ComfyUI
官方地址:它很重要很重要.帮助我们自动更新ComfyUI , 自动安装缺失的节点等等.Git获取下来之后,把这个目录放在该目录下ComfyUI Manager作为一个自定义的节点存在.使用的时候,ComfyUI的主界面上点击开即可,如下图3 开始第一个工作流吧.下载这个大模型放到ComfyUI的该目录下 ComfyUI_windows_portableComfyUImodelscheckpoints。
2025-04-15 13:51:02
907
原创 Stable Diffusion中错误Resulting grid would be too large
在StableDiffusion中用Script中的XYZ功能测试大批量生成的图片时,出现这个错误。看字面意思是最终的Grid太大了。超过了配置中的200MPixels。其实我只需要测试3种Sampler即可。这样X和Y的综合少了很多。这个配置在SD的config.json文件中。或者,减去一些Sampler的选择项目。Y 我选中了很多Sampler。可以自行修改大一些,问题解决。结果运行生成出现这个问题。X 我选择了全部的模型。
2025-03-27 10:00:39
303
原创 3-1 关键词反推
上一章,我们介绍了文生图的大部分基本内容本章,我们介绍如何图生图的相关基础知识和关键字反推技巧当我们用AIGC的方式生成图片后,很多时候需要知道某张效果很好的图片当时生成的参数设置是怎么样的。或者有时候需要针对某个品质很好的照片,大量衍生类似的内容。此时我们需要用到反推的能力,包括采样器,CFG配置等等各种内容。那么关键字的反推,就使用了CLIP功能。当然陆续还有更多的数据,参数反推,推荐工具。陆续都会在插件体系中增强和展开。但无论如何RA/SD内置的这个CLIP功能应该是最短小精悍的成手工具了。
2025-03-27 09:54:50
800
原创 Stable Diffusion中如何用GPU而不是CPU,加速出图
no-half 启动不是Half的能力,所谓的Half就是浮点数的一半。但是经常遇到的问题是,启动SD,就有时候出现。–skip-torch-cuda-test 启动环节跳过CUDA检测,这样你就看不到错误了。除非你没有硬件的Nvidia系列的显卡,否则上GPU肯定是必须的。另外如果你用CUDA11.6,对应的torch只能是1.13.0这种了。对应的torch版本对应了cuda和python的版本。cu的意思是CUDA, cp的意思是python。我的解释相对比较通俗,需要更专业术语的,自行找。
2025-03-26 15:15:13
732
原创 AI陪我做事 - 3 Llama.cpp核心开发和掌握
Llama.cpp 是一个开源软件库,专注于在各种硬件上执行大型语言模型(LLM)的推理,特别是在 CPU 上运行。它由 Georgi Gerganov 开发,于 2023 年 3 月开始,旨在提供无依赖的纯 C/C++ 实现,特别优化了 Apple Silicon(通过 ARM NEON、Accelerate 和 Metal 框架)和 x86 架构(支持 AVX、AVX2、AVX512 和 AMX)。它与 GGML 项目共同开发,GGML 是一个通用的张量库,专注于严格的内存管理和多线程。
2025-03-26 00:00:00
1616
原创 AI教你做视频-4 如何从局域网访问ComfyUI
步骤描述1. 找到运行脚本定位 run_nvidia_gpu.bat 文件2. 编辑脚本添加 –listen 0.0.0.0 到命令末尾3. 保存并运行重新运行脚本,服务器监听所有接口4. 访问方式其他机器输入 http://<目标IP>:8188 访问5. 检查 IP 地址使用 ipconfig 命令查看目标机器的 IPv4 地址6. 安全注意确保网络可信,必要时配置防火墙允许端口 8188。
2025-03-25 17:45:26
1000
原创 字形绘梦之绘星 – AI数字伴侣开启
【字形绘梦】是一款专注于角色创造的AIGC微信小程序,其中的【绘星】系统是一个核心功能,允许用户设计独特的角色并为其赋予个性。最近,【绘星】系统新增了MBTI性格测试功能,这一更新旨在将流行心理学与创意表达结合,特别针对年轻用户的兴趣和需求。这些类型在社交媒体和年轻人群体中非常流行,经常被用于自我探索和人际关系分析。
2025-03-25 17:42:17
1198
原创 AI教我做事之AIAgent开发-4 LLM三角原则在AI智能体开发中的应用
在AI智能体相关开发领域,LLM三角原则是一个重要的概念,旨在指导开发者构建基于大型语言模型(LLMs)的可靠应用。包括其定义、组成部分、理论背景以及与AI智能体开发的关联。
2025-03-24 10:39:31
791
微软2023年度新未来工作报告
2024-07-10
SerialPort串口调试工具
2020-02-05
XDataverse是一款通用的数据库管理工具,主要管理关系型数据库
2022-10-26
SQL CE Viewer
2007-10-08
Sql Ce Viewer_WPF
2008-02-14
SqlCeViewer0409
2009-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人