Pushkin.-CSDN博客

原创 AI数据基座本体建模落地实战：以供应链制造业为例

AI数据基座本体建模实战：供应链制造业案例摘要：本文通过离散制造企业案例，展示本体建模如何解决供应链管理中的数据孤岛问题。核心内容包括：本体价值：将孤立数据转化为业务关系网络，使AI系统具备因果推理能力，解决"懂数据不懂业务"的痛点。建模方法：概念层：识别22个核心业务概念（供应商、物料、设备等）关系层：定义关键传导链路（如供应商延迟→原材料短缺→订单延误）规则层：编码业务逻辑（如延迟3天触发生产调整）实施效果：风险预警：供应商问题可自动追踪至受影响订单智能归因：交付率下降可快速定位根因（

2026-06-05 09:24:51 342

原创架构设计实战指南：在约束中做取舍的工程智慧

架构设计实战指南：在约束中做取舍的工程智慧本文针对开发工程师、架构师和技术决策者常见的架构困境，提出了一套实用的架构思维框架。核心观点包括：架构本质：是在业务目标、资源约束和复杂度控制之间寻找平衡，而非单纯的技术选型。能力进阶：架构师成长分为四个段位：技术堆砌→模式套用→系统思考→架构思维，强调从经验到思维的转变。核心铁律：架构必须服务业务阶段需求控制复杂度就是降低长期成本通过隔离保证系统稳定性设计可演进的架构而非终极方案实践方法：提出"可观测优先"、"可降级

2026-05-13 11:08:39 548

原创 ToB产品思维：从“接需求“到“做产品“的思维方式升级

ToB产品思维升级：从执行到战略的四个段位本文系统阐述了ToB产品从"被动接需求"到"主动做产品"的思维升级路径。核心观点包括： ToB与ToC产品的本质区别：ToB产品价值在于帮客户赚钱或省钱，而非单纯追求用户体验。产品经理四个能力段位：第一段位：需求实现者（被动执行）第二段位：方案设计者（主动优化）第三段位：系统设计者（整体规划）第四段位：思维抽象者（方法论构建）产品设计三大核心问题：明确产品创造的价值（非功能列表）深入理解用户真实场景建立清晰

2026-05-13 10:46:08 378

原创【新】数据仓库分层建模实战指南：从混乱到有序的工程实践

数据仓库分层建模实战指南本文针对数据仓库开发中的常见痛点，提出了一套实用的分层建模方案。文章首先区分了业务库与数仓的本质差异，指出业务库追求实时性而数仓侧重分析性。针对传统数仓分层混乱的问题，作者提出将DWS层与ADS层合并为"集市层"的创新思路，实现DWD层专注数据清洗标准化、集市层满足分析需求的分工模式。通过实际案例展示了DWD层的表设计规范，强调"三要三不要"原则：要统一口径、要关联维度、要分区存储；不要加报表字段、不要高度聚合、不要直接开放查询。这种分层方法

2026-05-10 22:54:57 440

原创新数仓建设方法论与实践指南-分层解耦驱动的数据仓库

三、新方法论：分层解耦+场景适配 3.1 方法论核心：明确分层定位与解耦原则分层解耦的核心思想： DWD层（明细数据层）：采用3NF规范化建模，聚焦业务本质表达设计目标：准确反映业务实体及其关系关键特征：低冗余、高一致性、历史可追溯适用场景：作为数据加工的"原材料"，支撑上层各类应用 ADS/DWS层（应用数据层）：采用维度建模，面向具体应用场景优化设计目标：最大化分析效率与易用性关键特征：宽表化、适度冗余、查询友好适用场景：直接支撑报表、分析、模型等数据消费解耦原则的具

2026-05-10 22:26:37 550

原创 LangGraph 多 Agent 架构与 Supervisor 模式

摘要：LangGraph 提出的 Supervisor 模式是多 Agent 系统的核心架构，通过一个主管 Agent 协调多个专家 Agent 协作。当单个 Agent 工具过多或任务复杂时，拆分为多 Agent 系统更高效。架构包含 Supervisor 决策节点和多个专家节点，采用共享消息列表实现通信。LangGraph 提供 @langchain/langgraph-supervisor 包简化实现，支持自动路由和任务分配。该模式既能保持各 Agent 的专业性，又能通过 Supervisor 实现

2026-05-10 09:09:36 452

原创从 Chain 到 Graph：LangGraph 核心架构解析

本文解析了LangGraph从Chain到Graph的架构演进，指出当Agent逻辑复杂度超过临界点时，Graph成为必选项而非可选项。文章详细介绍了Graph的三个核心概念：State（全局共享数据总线，通过Reducer机制解决并发更新冲突）、Node（纯函数工作节点，通过State间接协作）和Edge（节点跳转规则，包括固定边、条件边和动态并发Send）。最后通过一个自修复翻译审校Agent的实战案例，展示了如何用LangGraph实现复杂业务逻辑，包括状态管理、节点路由和异常处理。文章强调Graph

2026-05-09 21:18:31 469

原创 ReAct 架构深度解析：让大模型学会“边想边做“

ReAct架构解析：让大模型实现"边想边做"的动态推理核心思想：ReAct（Reasoning+Acting）是一种将大语言模型(LLM)的内部推理与外部工具调用相结合的框架，通过"思考→行动→观察"的循环实现动态决策。关键优势：突破LLM的静态知识限制，通过工具调用获取实时信息工作记忆扩展，每一步推理都基于最新观察结果可解释性强，Thought轨迹清晰可读实现演进：早期：基于Prompt和字符串解析的简单实现现代：支持结构化工具调用、多工具并行等高级

2026-05-09 20:12:41 484

原创 Symphony：大模型之后的系统范式——从“写代码”到“编排工作”

摘要随着大模型技术的发展，软件工程正经历从"写代码"到"编排工作"的范式转变。OpenAI推出的Symphony系统代表了这一变革，它作为Agent时代的Kubernetes，将工程管理重心从代码监督转向任务编排。Symphony通过三层架构模型（任务层、执行层、验证层）实现工作流管理，采用Elixir/OTP技术栈支持高并发Agent调度。该系统解决了AI规模化编码带来的吞吐失衡、上下文漂移等问题，通过约束驱动执行和垃圾回收机制保障代码质量。Symphony的出现

2026-05-05 23:14:12 467

原创数仓 AI Coding 应用实战：基于 AI 的数仓效能提升

摘要：本文探讨了AI大模型在金融财务数据仓库开发中的应用实践，通过Claude模型实现了数仓开发效能的显著提升。文章聚焦财务数仓面临的四大痛点：规范与敏捷的冲突、开发链路低效、测试成本高昂和需求理解偏差。通过AI在OneData标准化建模、SQL自动生成、质量测试等核心场景的应用，实现了规范遵守率从60%提升至95%+、开发效率提升50%+、一次交付通过率从50%提升至90%的效果。AI大模型通过200k+token的上下文窗口整合全域元数据，将业务语言精准转化为技术实现，同时保持极高的规范执行力，有效解决

2026-04-23 18:17:06 538

原创 OpenAI Computer Use Agent (CUA) & Wordle 评估

摘要： OpenAI最新发布的Computer Use Agent（CUA）是首个能通过视觉和键鼠操作完成通用GUI任务的AI智能体。基于GPT-4o多模态能力和强化学习训练，CUA在OSWorld（38.1%）、WebArena（58.1%）和WebVoyager（87%）基准测试中达到SOTA水平。其核心技术突破在于纯像素级感知与统一操作空间设计，无需依赖特定API即可控制任何图形界面。评估显示CUA具有"越想越好"的特性——允许的推理步骤越多，成功率越高（15步达32%）。然而在复

2026-04-07 20:15:28 715

原创 1B 小模型，吊打 GPT-3.5/Claude-3：揭秘 BFCL 榜首的“动作大模型”xLAM

Salesforce AI Research推出xLAM系列大动作模型，专为函数调用和AI代理任务优化。该系列包含1B到8×22B参数的5个模型，采用Dense和MoE架构，覆盖从移动设备到高性能计算场景。xLAM通过统一数据格式、增强和清洗流程，整合异构代理数据，在未见工具调用场景展现强大泛化能力。其中xLAM-8×22B-r在Berkeley函数调用榜单排名第一，1B参数的"Tiny Giant"模型性能超越Claude-3等商业大模型。xLAM v2新增多轮工具调用功能，采用API

2026-04-05 22:16:50 459

原创 LLM预训练完全指南：从理论到NanoQwen实战

本文是一份关于LLM预训练的全面指南，重点介绍了NanoQwen模型的实现。文章分为六个章节，首先讲解预训练的基础理论，包括Next Token Prediction等核心概念；其次详细说明数据准备流程和分词器训练；然后深入解析NanoQwen模型架构，涵盖RMSNorm、RoPE等关键技术；接着提供预训练实战代码详解；最后讨论模型评估与应用。文章特别强调了预训练的核心要素：数据、模型、训练目标和算力，并通过NanoQwen这一轻量级模型（约26M参数）展示了如何在单卡GPU上实现高效训练。全文系统性地介绍

2026-04-05 21:09:12 440

原创论文精读：Agentic Context Engineering (ACE)

**论文摘要：斯坦福大学团队提出Agentic Context Engineering (ACE)框架，通过将上下文视为动态演进的"战术手册"而非静态提示词，解决了现有上下文适配方法的两大核心缺陷：简洁性偏差和上下文坍塌问题。ACE采用生成-反思-策展的三角色架构，结合增量式更新机制，在Agent任务上实现10.6%的性能提升，领域任务提升8.6%。其创新包括模块化工作流、局部化更新策略和多轮适配机制，显著降低了计算成本，同时保持上下文的知识丰富性和结构化特征。该框架为LLM的持续自我

2026-04-04 09:23:46 422

原创论文精读：Building Effective Agents

论文摘要：构建高效AI Agent的设计原则与实践 Anthropic基于实践经验提出，成功的Agent实现关键在于简单可组合的模式而非复杂框架。文章系统阐述了Agent架构设计方法论：1) 定义Agent为自主系统、预定义工作流或混合型；2) 对比Workflows（确定性流程）与Agents（动态决策）的适用场景；3) 提出渐进式构建策略：从单次LLM调用开始，按需升级为Workflows或Agents；4) 详解五大核心模式：增强型LLM、提示链、路由、并行化和编排者-工作者模式；5) 强调评估优化循

2026-04-04 08:51:19 387

原创【大话Presto 】- 核心概念

Presto（PrestoDB）是一个FaceBook开源的分布式MPP SQL引擎，旨在处理大规模数据的查询和分析问题。传统数据库系统(eg:Hive)在面对大规模数据和复杂查询需求时存在限制，如数据规模限制、查询速度慢、数据源集成困难等问题。本文主要介绍下Presto基本的核心概念。

2023-11-17 18:02:13 1046

原创【大模型】2万字带你快速入门最热门LLM应用开发框架LangChain

LangChain是以大型语言模型（LLM）为核心的开发框架，旨在为自然语言处理（NLP）领域带来革新。项目始于2022年10月的开源项目，迅速转变为初创公司，并吸引了大量关注和投资。LangChain提供Python和Node.js版本，让开发者能够快速上手LLM应用开发，解决了现有人工智能应用开发中的痛点，并极大地提高了开发效率。作为LLM应用架构的一部分，LangChain整合了LLM模型、向量数据库、交互层Prompt、外部知识和工具，为用户提供了自由构建LLM应用的平台。随着不断的迭代和优化，L

2023-11-11 23:20:02 557 2

原创 Presto资源管理之Resource Groups And Selector

Presto 是一个用于大数据查询和分析的开源分布式 SQL 查询引擎。在Presto中，资源组(Resource Groups)可以用来管理和分配 Presto 集群的资源。资源组可以用于控制 Presto 查询的优先级和资源分配。

2023-11-10 13:43:30 987 1

原创 OpenAI开发者大会掀起风暴：GPT模型价格狂降50%，应用商店即将亮相，AI技术将引爆全球！

OpenAI首届开发者大会于11月7日在旧金山盛大召开，吸引了整个硅谷的开发者。自2007年乔布斯的iPhone改变世界以来，硅谷从未对任何活动如此兴奋。一年前的11月30日，OpenAI发布了ChatGPT，这款AI驱动的聊天机器人在两个月内吸引了1亿用户，创下了用户增长速度最快的历史记录。然而，ChatGPT的增长后来逐渐放缓，这也是所有生成式AI产品都面临的问题：如何获得新的增长动力？今天在开发者大会上，OpenAI提出了解决方案：让生成式AI更便宜、更个性化，并让其无处不在。

2023-11-08 22:32:10 739 9

原创 presto插件机制揭秘：探索无限可能的数据处理舞台

摘要: “开启数据处理新纪元：探索Presto插件的无限可能”本文将带领读者一同探索Presto插件机制的魅力。插件机制是Presto实现自定义拓展和功能扩展的关键。我们将详细介绍Presto插件的定义、安装和使用，并深入了解插件机制的内部工作原理。了解插件机制如何提供灵活性和可定制性，并演示如何编写和注册自定义的插件。通过使用插件，你将能够强化Presto的数据处理能力，让你的工作事半功倍。让我们一同开启数据处理的新纪元，探索Presto插件的无限可能！

2023-11-03 14:47:46 2064 31

原创 01 presto 概述: 特性优缺点场景架构

Presto是一款开源的分布式并行计算(MPP)引擎，主要适用于大数据领域GB~PB量级数据源的秒级分析查询场景需求。- Presto的产生是为了解决MapReduce模型太慢且不能通过BI等工具展现HDFS数据的问题- Presto是一个计算引擎，它不存储数据，主要通过丰富的Connector,获取第三方的数据，并支持扩展

2023-02-27 11:36:10 2437 1

转载【Air2phin】Airflow 一键迁移 Dolphinscheduler 工具

调度系统迁移工具 Air2phin 宣布开源。借助 Air2phin，用户可 2 步将调度系统从 Airflow 迁移至 Apache DolphinScheduler，为有调度系统迁移需要的用户带来极大便利

2023-02-24 23:03:58 657

转载探究Presto SQL引擎-巧用Antlr

探究Presto SQL引擎-巧用AntlrAntlr应用之presto案例

2022-12-11 12:11:15 872

原创计时器Timing Wheel 时间轮算法

计时器对于故障恢复、基于速率的流量控制、调度算法、控制网络中的数据包生命周期至关重要重要。而一般计时器的实现维护成本比较高，比如JDK自带的 Timer、DelayQueue对于任务的进出其时间复杂度为O(logN)。对于要求高性能且需要保证高频繁大量操作任务的优先级框架，比如Kafka、Netty等框架，重排序的时间复杂度O(logN)是不能满足其要求的。而基于一种时间轮的算法可以实现将这种重排序的时间复杂度降为O(1)。

2022-12-03 14:10:47 994 2

原创任务调度之ScheduledThreadPoolExecutor源码分析

任务调度之ScheduledThreadPoolExecutor源码分析jScheduledThreadPoolExecutor 相比于Timer,ScheduledThreadPoolExecutor 其实就是多线程版的Timer,主要解决的就是多任务执行相互影响的问题。

2022-11-13 08:19:49 692 3

转载知乎案例分享: 万字详解用户画像与实时数仓的架构与实践

万字详解用户画像与实时数仓的架构与实践关键词：数据仓库，Apache Doris，用户画像，实时数据

2022-11-12 18:23:41 1257

原创任务调度之Timer定时器源码分析

任务调度之Timer定时器源码分析

2022-11-12 18:09:27 934

原创【面经】- 上汽新能源车企JAVA&大数据架构师实战面经分享

【面经】- 上汽新能源车企30K-60K架构师实战面经分享java架构师面经大数据架构师面经数据开发架构师面经大数据平台架构师面经

2022-09-24 10:58:39 2502 35

转载【ClickHouse】-03.副本与分片-分片篇

【ClickHouse】-03.副本与分片-分片篇数据分片distributed原理解析

2022-09-24 08:45:00 2255

转载【ClickHouse】-02.副本与分片-副本篇

【ClickHouse】-02.副本与分片-副本篇数据副本zookeeper配置方式replicatedMergeTree原理解析副本操作流程

2022-09-24 08:30:00 3074

原创【ClickHouse】-01.万字带你快速入门使用CK

【ClickHouse】-01.万字带你快速入门使用CKClickHouse安装；ClickHouse引擎；ClickHouse数据类型；ClickHouse Sql 案例操作

2022-09-18 14:00:39 4374 92

原创【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享要做好数据治理个人认为的有两个方向可以去尝试：1.像网易做的一体化方案，直接从数据开发，数据建模源端就开始进行管控 2.先定义好标准, 数据治理平台便是数据抽象层(标准层),实现一种数据注册的机制将原先的开发过程+设计+需求抽象到数据的治理平台中。

2022-09-17 11:58:40 3820 18

原创 DataOps: A New Discipline 数据治理的下一步

DataOps: A New Discipline 数据治理的下一步 DataOps

2022-09-17 09:18:47 545

原创【SQL屠夫系列】- SQL高频面试之计算累加报表，还不会你来K我

【SQL屠夫系列】- SQL高频面试之计算累计报表，还不会你来打我.SQL累加；累计题型解法

2022-09-16 17:47:09 557 20

原创【超硬核】-1万字详尽大厂团队SQL开发规范,Review没人能笑着出来

【超硬核】-1万字详尽大厂团队SQL开发规范,Review没人能笑着出来。SQL 开发规范

2022-09-15 07:00:00 1358 38

转载【超硬核】- 6万字Apache DolphinScheduler3.0 源码解析

【超硬核】- 6万字Apache DolphinScheduler3.0 源码解析;海豚调度架构设计；执行流程；负载均衡；容错；通信源码剖析

2022-09-14 22:39:03 539 4

原创【NLP屠夫系列】- NER之实战BILSTM

【NLP屠夫系列】- NER之实战BILSTM了解什么是命名实体识别了解命名实体识别的作用了解命名实体识别常用方法- 了解医学文本特征

2022-09-06 12:44:49 3500 76

原创【SQL屠夫系列】- 高频面试之SQL计算用户留存率

【SQL屠夫系列】- 高频面试之SQL计算用户留存率。用户留存日历计算；面试

2022-09-05 23:31:56 2599 34

原创【SQL屠夫系列】leetcode-176. 第二高的薪水

【SQL屠夫系列】leetcode-176. 第二高的薪水。SQL经典排名问题练习

2022-09-05 07:26:09 646 2

原创【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展：连续登陆N天）

【SQL屠夫系列】leetcode-180. 连续出现的数字-(实战扩展：连续登陆N天）

2022-09-04 09:47:26 2760 97

ECS弹性伸缩服务入门指南

阿里云 ACP云计算 ECS弹性伸缩服务入门指南资料学习

2018-08-26

Ali-HBase的SQL实践与改进

阿里巴巴天穆在2017杭州云栖大会中做了题为《Ali-HBase的SQL实践与改进》的分享,就为什么需要SQL，SQL on Ali-Hbase，优化与改进，ApsaraDB-Hbase，未来的工作做了深入的分析

2017-10-15

scala-2.11.8源码

scala-2.11.8 源码下载便于学习及深入了解scala核心机制

2017-10-18

python2.7 oracle库相关包

tar –zxvf cx_Oracle-6.3.1.tar.gz cd cx_Oracle-6.3.1 python2.7 setup.py build python2.7 setup.py install

2019-01-07

离线安装python pg环境

tar -zxvf psycopg2-2.7.4.tar.gz cd psycopg2-2.7.4 python setup.py install

2019-01-07

scala-intellij-bin-2.1.0.15.1.zip

idea scala bin包 scala-intellij-bin-2.1.0.15.1.zip

2017-10-09

scala-intellij-bin-1.2.1.zip

解压后放在idea/plugs/文件夹下然后重启idea即可 scala-intellij-bin-1.2.1.zip

2017-10-09

阿里云大数据专业认证学习笔记

阿里云大数据专业认证学习笔记大数据计算服务考试内容讲解及笔记

2017-10-17

BGP设计与实现

边界网关路由协议BGP 是一种用来在路由选择域之间交换网络层可达性信息的路由选择协议。

2015-12-06

jieba分词包

结巴分词 java代码资源使用方式 com.huaban.analysis.jieba和com.huaban.analysis.jieba.viterbi放到src目录下 dict.txt、jieba.java.code.style.xml和prob_emit.txt放到src目录下

2017-10-06

正则表达式转换器

2017-03-24

思科routing and switching CCIE 5.0诊断题vce文件

路由交换ccie 诊断题，可用vce软件模拟。秒过无压力

2015-12-06

gcc_package.tar centos 6.x/7.x

python环境 gcc安装包在线安装: yum install gcc-c++ python-devel.x86_64 cyrus-sasl-devel.x86_64 离线安装:

2019-01-07

ansj_seg-5.1.3

ansj_seg-5.1.3 ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

2017-10-06

Hive编程指南

市场中第一本Hive图书。, Hive在Hadoop系统中的应用趋势比较可观。

2017-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

ECS弹性伸缩服务入门指南

最新java面试题攻略

Ali-HBase的SQL实践与改进

scala-2.11.8源码

python2.7 oracle库相关包

离线安装python pg环境

scala-intellij-bin-2.1.0.15.1.zip

scala-intellij-bin-1.2.1.zip

阿里云大数据专业认证学习笔记

BGP设计与实现

jieba分词包

正则表达式转换器

思科routing and switching CCIE 5.0诊断题vce文件

gcc_package.tar centos 6.x/7.x

ansj_seg-5.1.3

Hive编程指南

空空如也