自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 【Python高级工程与架构实战】项目六:RAG知识库问答系统(企业文档智能)

GraphRAG(Graph-based Retrieval-Augmented Generation)通过构建文档实体关系图支持多跳推理(Multi-hop Reasoning)。系统首先使用命名实体识别(NER)与关系抽取(RE)从文档中提取实体(Entity)与关系(Relation)三元组,构建知识图谱 $G=(V, E)$ ,其中节点 $V$ 表示实体,边 $E$ 表示关系。

2026-04-11 09:21:48 431

原创 【Python高级工程与架构实战】项目四:生产级LLM Agent框架:基于PydanticAI的类型安全企业级实现

短期记忆管理遵循固定容量约束,定义窗口大小 $W$ 为最大Token数。滑动窗口算法维护消息队列 $Q = [m_1, \dots, m_n]$,当 $\sum_i tokens(m_i) > W$ 时,从队列头部移除消息直至满足约束。该机制确保上下文长度恒定,控制计算成本与模型性能。摘要压缩通过递归摘要算法减少历史信息量。

2026-04-11 00:07:19 444

原创 【Python高级工程与架构实战】项目五:生产级LLM Agent框架:基于PydanticAI的类型安全企业级实现

短期记忆管理遵循固定容量约束,定义窗口大小 $W$ 为最大Token数。滑动窗口算法维护消息队列 $Q = [m_1, \dots, m_n]$,当 $\sum_i tokens(m_i) > W$ 时,从队列头部移除消息直至满足约束。该机制确保上下文长度恒定,控制计算成本与模型性能。摘要压缩通过递归摘要算法减少历史信息量。

2026-04-11 00:03:56 491

原创 【自然语言处理 NLP】8.3 长文本推理评估与针在大海堆任务

验证维度涵盖:长输入上下文的一致性、长上下文的必要性、回答的有用性、回答的忠实度与指令复杂度。该方法通过在长文档(干草堆)的任意位置插入特定事实陈述(针),测试模型从冗长上下文中准确检索关键信息的能力。LongBench构建首个涵盖中英双语的多任务长上下文基准,包含二十一项任务分布于六个类别:单文档问答、多文档问答、摘要、Few-shot学习、合成任务与代码理解。实验证据显示,在多文档问答中,GPT-3.5-Turbo在中部信息场景下的性能甚至低于闭卷设置(无上下文),表明模型未能有效访问提供的文档。

2026-04-10 23:47:28 317

原创 【自然语言处理 NLP】8.2 Ring Attention 与分布式长上下文训练

长上下文建模的瓶颈已从算法层面转移至工程实现层面。当序列长度扩展至百万级token规模时,标准注意力机制的二次方内存复杂度与计算图规模导致单设备显存容量与计算吞吐的双重饱和。本节系统阐述突破硬件限制的分布式训练与推理架构,涵盖环形块级并行、序列流水线调度、内存-计算联合优化及分层卸载机制。

2026-04-10 23:41:33 534

原创 【Python高级工程与架构实战】项目四 现代ETL编排平台:Airflow + dbt + Snowflake 企业级数据管道架构与实现

Python"""【4.2.1.1】DAG工厂模式与元编程实现内容:YAML配置解析、动态DAG生成、配置验证与继承""""""DAG工厂实现配置到DAG的映射函数 G: C × T → D""""""加载YAML配置并验证Schema""""""实例化DAG对象 D_e = D_base ∘ C_e"""dag = DAG(# 动态创建任务tasks = {}# 建立依赖关系return dag"""根据配置创建Operator实例"""dag=dag。

2026-04-10 23:38:29 479

原创 第八章 长上下文建模与位置编码优化 (Long Context Modeling) 8.1 位置编码外推技术

大型语言模型在处理超出预训练长度的序列时面临严重的性能退化问题。基于旋转位置编码(Rotary Position Embedding, RoPE)的架构通过复数域旋转变换将相对位置信息注入注意力计算,但其固有的长度外推限制源于基频参数与训练长度的强耦合。本节系统阐述突破该限制的四类核心技术:基于神经正切核理论的频率感知插值、YaRN联合优化框架、动态参数重计算机制,以及压缩感知训练范式。

2026-04-10 23:35:44 312

原创 【自然语言处理 NLP】7.2.2.3 隐私泄露评估(Privacy Leakage via Memorization)

大语言模型在预训练过程中对训练语料的记忆化(memorization)构成了严重的隐私泄露风险。Carlini等人在2021年提出的可提取记忆(extractable memorization)框架将隐私风险量化为:给定模型参数 θ 和提示前缀 x1:k​ ,模型生成后续 token xk+1:n​ 的概率若显著高于随机猜测水平,则判定该序列属于训练语料的记忆化内容。

2026-04-10 23:21:56 381

原创 【自然语言处理 NLP】7.2.2.4 去偏见技术与公平性优化

通过主成分分析(PCA)识别性别或种族相关的方向向量,可量化中性词汇(如"医生"、"工程师")与属性词汇(如"他"、"她")的关联强度。软去偏见通过线性变换 $T \in \mathbb{R}^{d \times d}$ 调整词嵌入空间的几何结构,在保留偏见子空间微小成分的同时降低其与中性词的相关性。该投影将中性词向量约束至偏见子空间的正交补空间,保留语义信息的同时消除社会偏见关联。其中 $N$ 为中性词集合,$S$ 为语义相似对集合,$\lambda$ 控制语义保持与去偏强度的权衡。

2026-04-09 22:18:08 340

原创 【自然语言处理 NLP】大规模语言模型评估协议:MMLU、TruthfulQA与BBQ综合技术手册

知识理解维度(脚本1)实现MMLU基准的多选概率建模,支持零样本上下文学习、思维链推理与自一致性解码的对比评估。系统通过softmax归一化计算选项条件概率,采用多数投票机制聚合多路径推理结果。真实性维度(脚本2)针对TruthfulQA框架实现对抗性测试协议,通过启发式评判与人工参考对比,量化模型对虚假前提的鲁棒性。系统区分清洁分布与对抗性分布的性能差异,计算模仿人类虚假信念的易感性指标。偏见公平维度。

2026-04-09 22:11:15 329

原创 【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI

大语言模型的安全性对齐要求系统能够精准识别并拒绝用户输入中的有害提示(harmful prompts)。传统的基于规则或关键词匹配的过滤机制在应对语义复杂、隐含性强的对抗性输入时表现出显著的局限性。Perez与Ribeiro在2022年提出的自动化红队测试(automated red teaming)框架揭示了语言模型生成有害内容的潜在路径,强调了构建数据驱动的有害性检测机制的必要性。

2026-04-09 22:09:41 373

原创 【自然语言处理 NLP】7.2 红队测试与对抗鲁棒性(Red Teaming & Adversarial Robustness)

标准对齐流程在 clean 偏好数据上训练奖励模型 Rϕ​ ,鲁棒对齐则构建对抗性偏好对 (yadvlose​,ysafewin​) ,其中 yadv​ 为对抗攻击生成的有害响应。优化后的后缀在跨模型架构间呈现迁移性(Transferability),在白盒模型(Llama-2-7B-Chat)上优化的后缀可迁移至黑盒模型(GPT-3.5),揭示了安全对齐机制的共享脆弱性模式。基于梯度的对抗攻击通过优化离散对抗后缀(Adversarial Suffix),诱导模型生成有害内容,揭示对齐边界的脆弱性。

2026-04-09 00:00:50 523

原创 【自然语言处理 NLP】7.1.2 表示工程与推理监控

在代码生成任务中,分析表明模型在输出当前代码行前,隐藏状态已包含后续5-10个token的语法结构信息。与标准自回归模型的即时预测不同,内部前瞻(Internal Look-Ahead)假设模型通过内部模拟评估未来生成选项,优化当前决策。与传统自底向上的神经元级分析不同,该方法采用自顶向下策略,通过操控模型表示空间中的高层语义方向,实现对模型行为的精确控制。内部搜索的因果验证通过干预实验实现。若噪声注入导致后续位置生成困惑度显著上升,证明位置 t 的表示确实参与了未来token的规划计算。

2026-04-09 00:00:03 383

原创 【自然语言处理 NLP】7.1 机制可解释性(Mechanistic Interpretability)

具体而言,当修补Mover Heads的激活至腐败输入时,模型对正确间接宾语的预测概率显著恢复,证明其对该任务的因果必要性;通过消融实验(Ablation Study)移除特定注意力头,可观测到模型在少样本学习任务上的性能显著退化,验证了归纳头对ICL能力的因果必要性。给定事实三元组 (s,r,o) ,其中 s 为主体(Subject),r 为关系(Relation),o 为客体(Object),Integrated Gradients方法沿输入嵌入路径计算各神经元对预测 o 的贡献度。

2026-04-08 23:57:08 423

原创 【自然语言处理 NLP】工具学习与Agent架构:从函数调用到多智能体协作

本脚本实现支持5种工具(计算器、搜索、日历、翻译、代码执行)的函数调用Agent。采用模拟LLM进行工具选择演示,实现JSON Schema约束生成器,构建完整评估流水线,并通过matplotlib生成交互式准确率对比可视化与工具使用热力图。

2026-04-08 23:55:01 413

原创 【自然语言处理 NLP】多模态与具身智能:视觉-语言预训练技术手册

第一阶段为表示学习,冻结图像编码器(如ViT-G/14),仅优化Q-Former参数。ITC对齐图像与文本的潜在表示,ITM通过二分类判别图像-文本对的相关性,ITG则训练Q-Former基于视觉特征生成文本描述。BLIP-2提出查询Transformer(Q-Former)架构,解决冻结大规模图像编码器与大型语言模型(LLM)之间的视觉-语言表示鸿沟。该领域核心在于通过大规模图像-文本对的学习,建立跨模态的语义对齐机制,使得模型同时具备视觉感知能力与语言理解能力,并能在零样本或少样本场景下完成下游任务。

2026-04-08 23:40:33 331

原创 【自然语言处理 NLP】前沿架构与多模态 6.1.2 专家混合模型(Mixture of Experts, MoE)

输入向量 $x \in \mathbb{R}^d$, 专家数 $N$, 选择数 $K$, 门控权重 $W_g \in \mathbb{R}^{d \times N}$, 噪声权重 $W_n \in \mathbb{R}^{d \times N}$输入张量 $X \in \mathbb{R}^{T \times d}$, 专家网络 $\{E_i\}_{i=1}^N$, 路由器参数 $\theta_{\text{router}}$, 损失系数 $\alpha, \beta$机制奠定了现代稀疏MoE的基础。

2026-04-07 22:11:35 1040

原创 【自然语言处理 NLP】前沿架构与多模态 6.1.1.4 混合架构(Mamba-Transformer Hybrid)

定义层类型集合 $\mathcal{L}=\{A, M\}$ ,其中 $A$ 表示自注意力层,$M$ 表示Mamba层。其中 $L_i \in \{A, M\}$ 标识层类型,$F_i \in \{\text{Dense, MoE}\}$ 标识前馈网络类型。设总头数为 $h$ ,查询头数 $h_q = h$ ,键值头数 $h_{kv} < h$。其中 $M_w \in \{0, 1\}^{L \times L}$ 为掩码矩阵,$M_w[i, j] = 1$ 当且仅当 $|i - j| \le w$。

2026-04-07 21:59:34 329

原创 【自然语言处理 NLP】前沿架构与多模态 6.1.1.3 硬件感知状态空间优化(FlashConv/FlashFFTConv)

现代 GPU 计算遵循严格的内存层次结构,其中高带宽内存(HBM)与片上静态随机存取存储器(SRAM)存在显著带宽差异。FlashAttention 算法通过分块计算(tiling)与重计算策略(recomputation),将算法复杂度从内存约束转换为计算约束,实现了与序列长度线性相关的显存占用。该范式的核心在于最小化 HBM 访存量。

2026-04-07 21:53:33 425

原创 【自然语言处理 NLP】前沿架构与多模态 选择性状态空间模型与并行扫描算法:从原理到实现

λN​) ,其中 λn​∈C。此架构在推理时表现为常数内存消耗的RNN(仅需缓存最后状态 hL​ 和卷积状态),训练时通过并行扫描实现高效批量计算,在Long Range Arena(LRA)的PathX任务(序列长度16384)上达到与Transformer相当的建模能力,同时保持线性计算复杂度 O(LDN)。前缀状态序列 $\{(A_{prefix_k}, b_{prefix_k})\}_{k=1}^L$,使得 $h_k = A_{prefix_k} h_0 + b_{prefix_k}$

2026-04-07 21:47:57 397

原创 【自然语言处理 NLP】前沿架构与多模态 状态空间模型(Mamba/SSM)深度实现

其中 $A \in \mathbb{R}^{N \times N}$ 为状态矩阵,$B \in \mathbb{R}^{N \times 1}$ 为输入矩阵,$C \in \mathbb{R}^{1 \times N}$ 为输出矩阵,$D \in \mathbb{R}$ 为直馈系数。切换控制器维护离散化参数集合 $\theta = \{\bar{A}, \bar{B}, C, D\}$,根据模式标志位 $m \in \{\text{conv, recurrent}\}$ 路由计算图。

2026-04-07 21:42:06 430

原创 【Python高级工程与架构实战】项目三:实时数据管道(Kafka + Polars + Delta Lake)(一)

Zookeeper服务(端口2181)管理Kafka Broker协调,Kafka服务(端口9092)配置KAFKA_CREATE_TOPICS预建测试Topic(order-events、inventory-events),单节点模式启用KAFKA_OFFSETS_TOPIC_REPLICATION_FACTOR=1避免多副本警告。Silver层执行清洗、去重、标准化与轻量级聚合,数据转换为清洗后的Delta格式,应用Schema约束与质量门控,支持CDC(Change Data Feed)输出变更流。

2026-04-06 09:08:40 532

原创 【Python高级工程与架构实战】项目三:实时数据管道(Kafka + Polars + Delta Lake)(二)

创建# 核心数据处理# Kafka生态# 存储后端# Web服务# 数据验证# 可视化# 工具lz4>=4.3.0。

2026-04-06 09:08:05 286

原创 【Python高级工程与架构实战】项目二:事件驱动微服务拆分(分布式版)

Confluent Schema Registry为Kafka消息提供中心化Schema管理能力,支持Avro、Protobuf、JSON Schema等格式。Avro作为二进制序列化格式,通过Schema定义实现紧凑编码与强类型约束。事件Schema定义在独立仓库中版本化管理,生产者序列化前向Registry验证Schema兼容性,消费者反序列时获取对应版本Schema,实现前后向兼容的数据演化。兼容性规则约束Schema的演进方式。

2026-04-06 00:49:21 562

原创 【Python高级工程与架构实战】第一章 领域驱动电商订单核心系统:单体架构进阶实践

聚合(Aggregate)作为领域驱动设计的战术模式,定义了领域对象一致性边界。聚合根(Aggregate Root, AR)作为聚合的入口实体,封装了内部实体与值对象的访问路径。形式化地,聚合 $A$ 满足五元组定义 $A = \langle AR, E, V, I, R \rangle$,其中 $AR$ 为聚合根标识,$E$ 为内部实体集合,$V$ 为值对象集合,$I$ 为不变式(Invariants)集合,$R$ 为业务规则集合。

2026-04-06 00:14:01 463

原创 第三篇:认知架构与推理系统 第8章 世界模型学习

此处 h(0)=[st​,at​] 为拼接后的输入向量,L 为网络深度,st+1​=W(out)h(L)+b(out) 构成线性输出层。设图结构为 G=(V,E) ,节点特征 vi​∈Rd 包含位置、速度、质量属性,边特征 eij​∈Rde​ 编码距离、力类型信息。其中能量守恒损失 Lenergy​=∥Et+1​−Et​∥22​ ,动量守恒损失 Lmomentum​=∥∑i​mi​x˙i,t+1​−∑i​mi​x˙i,t​∥22​。此处 zt​ 为更新门,rt​ 为重置门,⊙ 表示逐元素乘法。

2026-04-05 23:00:26 516

原创 第10章 符号推理与神经符号AI

本文介绍了符号推理与神经符号AI的核心原理及实现方法。在符号推理部分,详细解析了一阶逻辑与归结原理、描述逻辑、STRIPS规划以及启发式搜索算法等经典符号推理技术。神经符号融合部分探讨了神经定理证明、可微分归纳逻辑、神经程序合成等前沿方法,展示了深度学习与符号推理的结合路径。知识图谱章节重点讲解了知识表示学习、关系推理以及知识引导学习等技术。配套的代码实现包括一阶逻辑归结证明器、描述逻辑推理机、STRIPS规划器和A*算法等,通过具体案例演示了各技术的实际应用。这些内容为构建可解释、可推理的智能系统提供了理

2026-04-05 22:59:40 793

原创 第9章 因果推理与物理理解

若 $Y$ 与 $Z$ 在给定 $W$ 与 $X$ 条件下在删除指向 $X$ 的边后的图中 d-分离,则:$P(y \mid \hat{x}, \hat{z}, w) = P(y \mid \hat{x}, z, w)$。设变量数为 $d$,最大邻居数为 $k$,算法复杂度为 $O(d^k)$。:若 $Y$ 与 $Z$ 在给定 $W$ 条件下在删除从 $Z$ 出发的边后的图中 d-分离,则:$P(y \mid \hat{x}, \hat{z}, w) = P(y \mid \hat{x}, w)$。

2026-04-05 22:50:41 384

原创 第 7 章 感知不确定性估计

在具身智能系统中,感知模块的输出并非绝对真理,而是受到传感器噪声、环境变化和模型局限性的影响。**不确定性估计(Uncertainty Quantification)**为智能体提供了“知道自己不知道什么”的元认知能力,这是实现安全决策、主动探索和故障恢复的关键前提。

2026-04-05 22:30:48 415

原创 第6章 听觉与多模态感知

多模态感知系统通过互补传感与概率融合实现鲁棒的环境与自身状态估计。音频处理从MFCC的手工特征演进至端到端学习;视听融合借助注意力机制突破模态异质性;本体感觉则通过卡尔曼滤波家族与粒子滤波,在编码器精度与IMU动态响应间取得最优平衡。这些技术共同构成了具身智能(Embodied AI)的感知基础。参考文献索引。

2026-04-05 22:27:08 383

原创 第 5 章 触觉与力觉感知

其中 $\mathbf{C} \in \mathbb{R}^{6 \times 6}$ 为标定矩阵(decoupling matrix),$\mathbf{n}$ 为噪声。其中 $\lambda$ 为光波长,$n$ 为折射率,$\Delta L$ 为光程变化。其中 $\epsilon_0$ 为真空介电常数,$\epsilon_r$ 为相对介电常数,$A$ 为极板面积,$d$ 为间距。其中 $K_t$ 为转矩常数,$\eta$ 为传动效率,$r$ 为减速比,$J$ 为转动量,$b$ 为阻尼系数。

2026-04-04 17:25:06 288

原创 第 4 章 视觉感知与场景理解

网络将输入图像划分为 $S \times S$ 网格,每个网格单元预测 $B$ 个边界框及其置信度 $\text{Pr}(\text{Object}) \times \text{IoU}_{\text{pred}}^{\text{truth}}$ 与条件类别概率 $\text{Pr}(\text{Class}_i \mid \text{Object})$。其中 $p_i$ 为预测概率,$p_i^*$ 为真实标签(1 前景 / 0 背景),$t_i$ 为边界框偏移量参数化坐标。

2026-04-04 17:23:39 264

原创 第 3 章 归纳偏置与学习效率

其中 $L(\cdot)$ 为损失函数,$h_D$ 为基于数据集 $D$ 学习的假设,$h^*$ 为贝叶斯最优假设。其中 $E$ 为多余基因数,$D$ 为 Disjoint 基因数,$N$ 为基因组长度,$\bar{W}$ 为权重差异均值,$c_i$ 为系数。其中 $x$ 为锚样本,$x^+$ 为正样本(同一数据的不同增强视角),$x^-$ 为负样本,$\tau$ 为温度参数,$f(\cdot)$ 为编码器。其中 $h$ 为网络隐藏层,$\gamma$ 与 $\beta$ 由上下文 $z$ 生成。

2026-04-04 17:20:37 362

原创 第 2 章 感知-认知-行为 (PCB) 框架

神经科学的最新进展揭示了智能系统并非由离散的感知、认知与行动模块顺序连接构成,而是通过持续的动力学耦合形成的功能统一体。神经振荡(neural oscillation)研究提供了理解这种耦合的电生理基础,其中丘脑-皮层回路中的 $\alpha$ 波段(8-13 Hz)与 $\gamma$ 波段(30-80 Hz)的交叉频率耦合(cross-frequency coupling)调节着感觉输入与运动输出的整合。

2026-04-04 17:17:03 358

原创 第1章 具身智能的本质与哲学基础

笛卡尔在《第一哲学沉思集》中确立的身心二元论将认知活动视为独立于物理身体的纯粹思维过程。20世纪80年代,具身认知(Embodied Cognition)作为对该传统的批判性回应应运而生。Lakoff 与 Johnson 在《肉身中的哲学》中论证了抽象概念根植于感知运动模式,标志着研究范式从“计算机隐喻”向“生物体隐喻”的过渡。具身系统的物理形态与环境之间存在非线性耦合。

2026-04-04 17:15:44 356

原创 Agent/Teakenote 系统(Swarm 架构)深度技术报告

表格特性传统单 Agent并行度单线程顺序执行多进程并行(受限于硬件)专业化通用提示词角色专用 Agent(探索/编码/测试)可靠性单点故障故障转移、自动重试可观测性黑盒实时多 Agent 监控、干预规模化上下文受限分片处理、结果聚合。

2026-04-01 23:52:33 369

原创 MCP 实现深度技术报告

是 Anthropic 推出的开放标准协议,旨在标准化 AI 助手与外部数据源、工具之间的集成方式。在 Claude Code 中,MCP 不仅是外部集成接口,更是核心架构组件,深度融入工具调用、权限管理和 UI 渲染体系。分层清晰:传输层/协议层/应用层严格分离,支持多种通信机制协议完整:完整实现 MCP 规范(Tools/Resources/Prompts/Roots)企业就绪:OAuth、XAA、审计、权限控制完备用户体验:无缝融入 Claude Code UI,支持流式输出、进度显示、错误友好提示。

2026-04-01 23:25:26 336

原创 Claude Code 项目架构深度分析报告

终端原生设计- 完整的终端 UI 框架(Ink 深度定制),非简单 CLI 包装安全优先- 五级权限体系、沙盒支持、命令分类器协议开放- MCP 协议支持,生态可扩展工程严谨- 类型安全(严格 TypeScript)、模块化、测试覆盖分布式就绪- 内置 Agent Swarm、远程会话、任务队列。

2026-04-01 23:13:23 404

原创 Claude Code

是一个终端优先的 AI 编程助手,核心特性包括:基于 React/Ink 的终端 UI 渲染系统完整的工具调用系统(文件操作、Shell 执行、Agent 派遣等)MCP (Model Context Protocol) 集成多模态支持(图像、语音、PDF)分布式 Agent/Teammate 系统实时协作与远程会话管理细粒度的权限控制系统插件生态系统src/types/分层架构:清晰的命令层、服务层、工具层分离安全性:完善的权限系统、命令分类器、破坏性操作警告扩展性。

2026-04-01 23:12:35 355

原创 安装Claude Code泄密

部分功能(语音输入、计算机使用、沙盒隔离等)在 Windows 上不可用,不影响核心 TUI 交互。是 bash 脚本,无法在 cmd / PowerShell 中直接运行。在 Git Bash 终端中,与 macOS/Linux 用法一致。(提供 Git Bash,项目内部 Shell 执行依赖它)。变量名: CLAUDE_CODE_GIT_BASH_PATH。API 端点(可选,默认 Anthropic 官方)标准 API Key(x-api-key 头)macOS / Linux(官方安装脚本)

2026-04-01 21:26:19 657

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除