- 博客(194)
- 资源 (1)
- 收藏
- 关注
原创 大模型学习专栏-导航页
本专栏是我深耕大模型领域的心血结晶,从基础概念到前沿技术,从理论解析到实战应用,定期更新系统化知识体系,助你逐步成长为大模型领域的行家。无论是想入门的小白,还是寻求技术突破的从业者,都能在这里找到进阶之路。
2025-08-02 23:00:07
1388
原创 Java学习专栏-导航页
"Java学习专栏"旨在为从事Java开发的软件工程师提供一个全面系统的学习资源,涵盖Java相关技术组件的深入解析和笔记总结。本专栏旨在帮助热爱学习的伙伴们更加便捷地掌握Java知识,助力技能提升。以下文章内容仅供参考,若您在阅读中发现任何偏差或错误,敬请在评论区留言指正。小编将实时关注反馈,确保及时更正,以维护内容的准确性和可靠性。在此感谢您的参与和支持!
2025-01-17 20:16:46
1676
原创 架构师备考专栏-导航页
架构师备考专栏——软考系统架构师考试的学习宝典,集合了全面覆盖架构师考试大纲的精华文章。每篇文章都为本人手输,并校对数遍后发表,在此我保障每篇文章的质量绝对过关。诚邀对架构师软考感兴趣的朋友们收藏此页面,并根据个人所需高效学习,备战考试。祝愿每一位勤奋的备考者都能顺利上岸!
2024-10-25 22:56:34
2342
原创 智能体评估-基于Trace数据的评估
智能体评估体系可分为全流程和阶段化评估两类,前者通过大语言模型模拟人类评估实现自动化,后者聚焦特定环节进行精细化优化。评估过程分为三个阶段:开发期手动追踪轨迹、用户验证期收集实时反馈、规模扩展期构建离线评估数据集。离线评估包含三种策略:黑盒式最终响应评估、玻璃盒式轨迹评估和白盒式单步测试评估。基于Trace追踪的评估框架通过埋点数据还原执行轨迹,并构建包含基础信息、评估对象、采样配置等要素的标准化评估任务。评估结果需通过场景化分析、调用链分析、可视化聚合及错慢Trace专项分析等多维度呈现,为智能体优化提供
2025-12-23 18:49:04
436
原创 LLM-as-a-Judge-论文学习(下)
摘要:LLM-as-a-Judge是一种基于大语言模型的通用评估范式,通过自然语言理解和知识整合能力,实现跨领域的高效评估。其核心优势在于规模化、灵活性和对主观定性任务的适配性,已广泛应用于NLP任务评估、金融分析、医疗诊断等领域。当前面临可靠性不足、鲁棒性薄弱和跨模态适配困难等挑战,未来需从推理能力增强、评估理论构建、多模态扩展等方面突破。该技术正从单一评估工具向动态进化的智能系统演进,有望重塑AI评估生态。
2025-12-05 18:44:10
1058
原创 LLM-as-a-Judge-论文学习(中)
摘要:本文系统探讨了大语言模型(LLM)作为评估器时存在的三大固有偏见(长度、位置、具体性偏见)及其改进策略。研究提出了三阶段优化框架:1)基于提示词设计的上下文学习优化,通过任务分解和结构化输出提升评估理解;2)基于模型的专门微调和反馈迭代,增强评估专业性;3)基于后处理的多源结果整合和输出优化,提高结果稳定性。实验验证显示,GPT-4-turbo在一致性和抗偏见方面表现最优,而"交换位置+多轮投票"策略能有效缓解位置偏见。研究同时指出当前元评估体系在基准统一性和实验严谨性方面的不足,
2025-12-04 19:19:03
1132
原创 LLM-as-a-Judge-论文学习(上)
大语言模型裁判(LLM-as-a-Judge)是利用大语言模型模拟人类评估能力的新型范式。其核心机制是将待评估对象与上下文提示结构化组合,通过模型自回归生成评估结果(如评分、比较或验证)。相比人工评估,具有可扩展性、适应性和成本效益三大优势。应用场景涵盖模型性能评测、数据质量评估、智能体决策和推理验证等领域。实践流程包括上下文学习设计、模型选择和后处理优化三个关键环节,需关注提示工程、评估一致性和结果可靠性等问题。当前研究显示,GPT-4等强模型的评估结果与人类判断一致性较高,但存在位置偏差、输出波动等挑战
2025-12-04 11:49:20
993
原创 Python 学习-深入理解 Python 进程、线程与协程(下)
掌握进程、线程、协程的底层原理和适用场景,不仅能提升程序的并发效率,还能帮助开发者构建更稳健、更易维护的并发系统。在实际开发中,需结合具体需求,灵活选择技术方案,避免 “过度设计” 或 “技术滥用”。
2025-12-01 20:53:10
711
原创 Python 学习-深入理解 Python 进程、线程与协程(上)
在 Python 并发编程领域,进程(Process)、线程(Thread)与协程(Coroutine)是三种核心的任务调度方案。它们分别对应操作系统内核态的进程调度、内核态的线程调度与用户态的协程调度,在资源占用、切换效率、适用场景上存在本质差异。本文将从底层原理出发,结合 Python 实战案例,系统解析进程、线程与协程的实现机制、使用方法及选型策略,帮助开发者构建清晰的并发编程知识体系。
2025-12-01 19:58:52
1502
原创 软件架构设计学习-基本概念
软件架构的两大流派:组成派强调软件由组件及其交互构成,关注功能分割与协作逻辑;决策派则认为架构是重要决策的集合,涉及技术选型、系统组织等多维度设计。架构设计需经历从需求分析、概念架构到细化设计的递进过程,采用多视图方法(如逻辑视图、物理视图等)分解系统复杂性,并通过多视角设计(业务、开发、运维等)满足不同角色需求。良好的架构需要在组件交互与分层决策间取得平衡,最终形成技术可行且业务适配的系统方案。
2025-11-07 14:51:09
921
原创 Langfuse 可观测性功能实战
摘要: Langfuse是一个开源LLMOps平台,专注于AI应用全生命周期管理,包括开发、监控、评估与调试。其核心优势包括轻量化部署(支持快速自托管)和实战验证的可观测性方案,可追踪LLM应用的完整执行链路(Trace)、多轮对话(Session)和用户行为(User)。平台提供细粒度追踪(如LLM调用、检索器、工具调用等)和跨服务传播支持(基于OpenTelemetry协议),适用于Java和Python生态,并深度集成LangChain框架。通过实时监控成本、性能及错误,帮助团队高效调试和优化AI应用
2025-11-06 12:10:52
1003
原创 Langfuse-GitHub 上星标最多的开源 LLMOps 工具
Langfuse是一款开源LLM工程平台,专注于AI应用全生命周期管理,包括开发、监控、评估和调试。其核心优势在于轻量化部署(几分钟内完成自托管)和实战可靠性,已在大量实际场景中验证。平台提供三大核心功能:可观测性(Trace/Session/User三级追踪)、提示词管理(版本控制/动态拉取)和自动化评估(LLM-as-a-Referee评分)。技术栈采用NextJS14前端+PostgreSQL/ClickHouse双数据库架构,支持JS/Python/Java等多语言SDK。
2025-11-03 16:21:10
916
原创 Wend看源码-table-RAG(Google-Research)
本文聚焦Google Research提出的TableRAG框架,针对大规模表格处理中的三大核心挑战(上下文长度限制、中间遗忘现象、计算成本问题),提出创新解决方案。TableRAG采用Schema-单元格双检索机制:通过查询扩展生成关联查询,分别对Schema(列名/类型)和单元格进行向量化检索,仅保留高频关键信息输入模型,实现输入规模与表格大小的解耦。相比传统全表输入、仅Schema输入和行列检索方法,TableRAG在ArcadeQA数据集上展现出显著优势,既规避了上下文窗口限制,又平衡了计算效率与推
2025-10-30 18:56:32
754
原创 LangGraph 指南篇-细粒度操作指南
本文介绍了LangGraph框架中的四个核心功能实现方法:1. 在节点中同时实现状态更新和跳转控制,通过返回Command对象指定目标节点;2. 通过config参数为图添加运行时配置,包括LLM模型选择等;3. 使用retry方法为节点添加自定义重试策略;4. 利用RemainingSteps检测递归限制,在达到上限前安全返回状态。这些方法增强了图结构的灵活性和鲁棒性,适用于复杂流程控制场景。
2025-10-21 09:41:16
400
原创 wend看源码-langchain-mcp-adapters
本文介绍了轻量级项目langchain-mcp-adapters,专注于将MCP协议工具转换为LangChain框架的BaseTool,实现大模型可识别的FunctionCalling调用方式。该项目通过适配器模式简化了MCP工具调用流程,支持多服务器连接和四种传输协议(stdio/sse/streamable_http/websocket),提供自动/手动两种会话模式,并支持工具、提示词和资源三种类型的转换。核心组件MultiServerMCPClient管理连接和协议转换,兼容LangChain生态规范
2025-10-11 16:00:25
1083
原创 IBM-Granite-docling-258M 模型全面解读
IBM推出轻量级多模态模型Granite-docling-258M,专为高效文档转换设计。该模型基于IdeFics3架构优化,采用SigLIP视觉编码器和Granite165M语言模型,参数量258M,支持图像+文本指令输入,输出结构化文本(Markdown/HTML等)。核心功能包括精准公式识别、灵活区域推理和稳定排版处理,性能较前代提升显著,尤其在代码/表格识别上接近完美。模型深度集成Docling生态,支持CLI和VLLM批量处理,但需注意其轻量级特性带来的幻觉风险,建议限定在文档转换场景使用,并搭配
2025-09-18 13:37:58
1640
原创 SmolDocling-256M-preview 模型全面解读
IBM Research团队开发的SmolDocling-256M-preview是一款超紧凑多模态图文转文本模型,专为高效文档转换设计。该模型仅256M参数,采用DocTags轻量标记体系实现文档结构与内容分离,支持表格、公式、代码等12种文档元素的精准识别与结构化提取。通过Transformers、VLLM和ONNX三种推理方式,可快速将文档转换为Markdown/HTML/JSON等格式,在A100 GPU上处理速度达0.35秒/页。虽然目前仅支持英文文档且对复杂排版容错较低,但其轻量化设计和商业友好
2025-09-18 12:12:14
1102
原创 wend看源码-docling(RAG 工程-文档解析)
Docling是一款多格式文档处理工具,支持PDF、Office、音频等格式解析,提供统一结构化输出。其核心功能包括智能PDF解析、表格识别、OCR支持,并集成了IBM的AI模型进行信息抽取和分类。项目采用模块化设计,包含主入口包、核心数据结构、解析引擎、REST服务等组件,支持本地和云端部署。作为LFAI&Data基金会托管项目,Docling适用于敏感数据处理、企业级文档自动化等场景,代码开源且兼容多种硬件加速。
2025-09-17 15:32:58
1033
原创 wend看源码-Open_Deep_Research(LangChain)
在AI 超速发展的今天, AI 早已渗入学界论文分析、企业市场研判等场景,“深度研究” 成了学术与产业的刚需。传统研究靠人工翻文献、拼数据,不仅耗时费力,还难保证结论的系统性与准确性 —— 这时,带自动化能力的深度研究代理工具,就成了破局关键。在这类工具里,LangChain 团队推出的 Open Deep Research 很 “接地气”:它是款轻量框架,开源属性拉满,代码没冗余模块,核心逻辑一眼能看懂,还曾在权威的 Deep Research Bench 排行榜拿下第 6 名。
2025-09-16 23:35:41
1114
原创 安全开发生命周期管理
本文提出了一套完整的隐私保护框架,涵盖组织管理、产品全流程、IT工具支撑和原则指导四个维度。该体系通过顶层基础、核心流程、技术赋能和底层准则四个层面,实现从战略目标到落地执行的全链条隐私保护。核心包括:1)建立合规目标管理和组织准备;2)将隐私设计(PbD)嵌入产品全生命周期;3)运用审核、检测等IT工具;4)遵循GDPR等隐私保护原则。同时详细规定了数据分类分级、安全架构设计、开发测试规范等具体实施要求,并强调定期安全审查和应急响应机制,确保产品全生命周期符合隐私合规要求。
2025-09-16 18:24:02
969
原创 敏捷开发-Scrum(下)
Scrum框架的核心由团队、事件和工件三要素构成,形成协同运作的价值交付体系。Scrum团队采用"小而精"的结构,包含产品负责人(定义价值方向)、Scrum Master(赋能团队)和开发人员(执行交付)三个角色。五大事件(Sprint、计划会、每日站会、评审会和回顾会)为团队建立工作节奏和反馈机制。三大工件(产品待办列表、Sprint待办列表和增量)确保价值透明化和目标对齐。三者协同运作,通过"计划-执行-检查-调整"的闭环,帮助团队在复杂环境中高效交付价值。
2025-09-05 18:41:07
1195
原创 敏捷开发-Scrum(上)
Scrum是一种轻量级、以团队为中心的敏捷框架,其核心特征包括:1)通过简化流程(角色/事件/工件)聚焦价值交付;2)依赖跨职能团队协作解决问题;3)允许实践灵活适配不同场景。其理论融合实验主义(迭代验证)与精益思想(消除浪费),通过透明、检视、调整三大支柱实现持续改进。五大价值观(承诺/专注/开放/尊重/勇气)是团队协作的精神内核。成功实施需满足:价值观内化、支柱闭环落地、组织提供自治与信任环境。Scrum强调管理赋能而非控制,适合需求快速变化的复杂项目。
2025-09-05 18:06:27
256
原创 Wend看源码-marker(RAG工程-PDF文件解析)
摘要:Marker是一款高效开源的PDF解析工具,专为RAG工程优化设计。它通过多阶段处理流程(提取-构建-渲染)实现复杂PDF文档的精准解析,支持表格、公式、代码块等元素的格式保留,并具备多语言处理能力。Marker采用模块化处理器架构,结合深度学习模型(Surya)和可选LLM增强,在速度(H100显卡25页/秒)和准确性(测试评分95.67)上均优于同类工具。其灵活配置支持GPU/CPU环境,适用于学术、法律等专业领域的文档解析需求。
2025-08-31 23:47:50
1258
原创 LangGraph 指南篇-基础控制
本篇文章主要针对LangGraph 的一些基础控制方法进行讲解,和提供代码示例实现,方便读者更快速地掌握langGraph 在基础控制上的一些写法,为后续的LangGraph Agent 工作流开发做铺垫。TypedDict(适合简单场景):轻量型定义,适合结构简单、无需复杂验证的状态。# TypedDict 示例(简单场景)BaseModel(适合复杂场景):基于 Pydantic,支持类型验证、约束定义和嵌套结构,适合复杂状态。# BaseModel 示例(复杂场景)
2025-08-14 00:09:59
1351
原创 LangGraph认知篇-Persistence 持久化
LangGraph 作为一个强大的工作流建模工具,其核心特性之一是内置的持久化层,该层通过检查点(checkpointers)实现。当用户为图(graph)配置检查点后,系统会在每个超级步骤(super-step)保存图状态的检查点,并将这些检查点关联到特定的线程(thread)中。这种机制不仅支持图执行后的状态访问,还赋能了多项关键能力:人机协作(human-in-the-loop)、记忆功能、时间旅行(time travel)以及容错性。
2025-08-03 13:21:03
939
原创 LangGraph认知篇-Command函数
在 LangGraph 中,Command 是一个极具实用性的功能,它能够将控制流(边)和状态更新(节点)巧妙地结合起来。这意味着开发者可以在同一个节点中,既执行状态更新操作,又决定下一个要前往的节点,为工作流的构建带来了极大的灵活性。
2025-08-02 22:48:59
1167
原创 LangGraph认知篇-Send机制
LangGraph 提供了 Send 机制,其核心功能是:通过条件边(conditional edges)动态生成下游节点的调用指令,实现状态的按需分发和节点的动态触发。
2025-07-31 22:19:01
1304
原创 AI Agent-Manus 构建经验解读(下)
Manus 官网博客文章《Context Engineering for AI Agents: Lessons from Building Manus》为我们带来了 AI 智能体上下文工程领域的深度实践总结。该文浓缩了 Manus 团队在技术攻坚中的核心经验与深刻洞察,系统性梳理了智能体系统设计面临的关键问题及解决方案,其中涵盖 KV 缓存优化、动态动作空间管理、基于文件系统的上下文扩展等核心技术方向。
2025-07-22 18:41:01
920
原创 AI Agent-Manus 构建经验解读(上)
Manus 官网博客文章《Context Engineering for AI Agents: Lessons from Building Manus》为我们带来了 AI 智能体上下文工程领域的深度实践总结。该文浓缩了 Manus 团队在技术攻坚中的核心经验与深刻洞察,系统性梳理了智能体系统设计面临的关键问题及解决方案,其中涵盖 KV 缓存优化、动态动作空间管理、基于文件系统的上下文扩展等核心技术方向。
2025-07-22 14:49:24
1395
原创 大模型-DeepSeek 模型的训练过程即核心技术
DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,简称深度求索,成立于 2023年7月,是幻方量化旗下的AI公司,专注于实现通用人工智能(AGI),具有深厚的软硬件协同设计底蕴。其代表模型 DeepSeek-V3(基座模型)与 DeepSeek-R1(推理模型),凭借开源免费、性能卓越、高性价等核心优势,一时间横扫各个大模型评估榜单,并迅速成为业界标杆,并为 AI 技术的普及化奠定了坚实基础。 接下来,我将从技术角度,解析 DeepSeek 的核心训练方法与相关的创新技术。
2025-07-21 10:25:50
1207
原创 设计模式(行为型)-迭代器模式
在软件开发中,集合对象的遍历是一项常见且关键的操作。如何在不暴露集合内部结构的前提下,灵活、高效地遍历集合元素?迭代器模式(Iterator Pattern)为这一问题提供了完美的解决方案。作为一种行为型设计模式,迭代器模式将集合的遍历逻辑与集合本身分离,使得遍历操作可以独立于集合的具体实现而存在。本文将从迭代器模式的定义出发,深入剖析其核心结构、实现方式、优缺点及实际应用场景,帮助开发者全面理解并灵活运用这一经典设计模式。
2025-07-14 21:27:50
772
原创 大模型-量化技术
模型量化是一种重要的模型压缩技术。其核心目标是在可控精度损失下,将大模型中浮点型权重(通常为 float32 等高精度格式)近似转换为低精度离散值表示(通常为 int8)。
2025-07-13 23:32:04
1610
原创 设计模式(结构型)-适配器模式
适配器模式(Adapter Pattern)是一种结构型设计模式,它允许将一个类的接口转换成客户期望的另一个接口。这种模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。适配器模式的核心思想是通过一个中间组件(适配器)来协调两个不兼容的接口,从而实现它们之间的协同工作。
2025-07-11 17:54:43
872
原创 Wend看源码-DeerFlow(基于LangGraph 的DeepResearch框架)
DeerFlow (Deep Exploration and Efficient Research Flow) 是一个社区驱动的开源框架,专注于深度研究自动化。其核心目标是将大型语言模型(LLM) 的强大能力与专业工具无缝结合,以提升智能研究和内容生成的效率。
2025-07-11 16:24:02
1125
原创 设计模式(行为型)-责任链模式
责任链模式的核心定义是:使多个对象都有机会处理请求,从而避免请求的发送者和接收者之间的耦合关系。将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它为止。这一模式的本质是建立一个灵活的处理流程,让请求在不同的处理器之间流转,每个处理器根据自身职责决定是否处理请求,或者将其传递给下一个处理器。
2025-07-09 22:54:06
912
原创 wend看源码-OpenManus
OpenManus 是一个通用 AI 智能体架构,旨在为开发者提供解决多样化任务的工具集,涵盖编程执行、信息检索、文件操作、网页交互等自动化能力,同时支持必要时的人工介入机制。 作为 Demo 级别的智能体项目,其代码结构简单直观,非常适合初学者通过阅读源码理解 AI 智能体的基本架构设计。这一特性使其成为入门学习的理想案例,帮助开发者快速把握智能体系统的核心组成与运行逻辑。
2025-07-09 18:32:12
908
原创 Wend看源码-RAGFlow(下)
在上篇文章里,我们对 RAGFlow 的架构展开了介绍与说明,详细剖析了它的优化策略,像预处理优化、分块优化、任务调度优化以及查询分析优化等方面。而本篇文章将聚焦于 RAGFlow 的核心模块与具体使用方式,助力读者更深入洞悉其特点与优势 。
2025-07-08 18:43:32
1259
原创 Wend看源码-RAGFlow(上)
RAGFlow 是一款基于深度文档理解构建的开源 RAG(检索增强生成)引擎。它为各种规模的企业提供了一套精简的 RAG 工作流程,通过结合大语言模型(LLM),利用来自各类复杂格式数据的可靠引用,为用户提供真实可信的问答能力。 (官网介绍)
2025-07-08 15:37:32
1280
2025最新SuperCLUE大模型测评文档【中文大模型基准测评】2025年5月SuperCLUE报告:大模型进展与综合测评分析
2025-07-02
NLTK 语料包包含了多种类型的文本数据,如书籍、新闻文章、社交媒体文本等,涵盖了不同的领域和主题 这些语料库经过整理和标注,可用于训练和评估 NLP 模型,帮助研究人员和开发者更好地理解和处理自然语
2025-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
2