码上有前-CSDN博客

策略网络（Actor）：μθ(s) → 确定性连续动作，θ 为待优化参数；Q 网络（Critic）：Qω(s,a) → 评估 (s,a) 的累积奖励期望，ω 为待优化参数；目标策略网络：μθ’(s) → 固定一段时间的 Actor 副本，用于计算稳定的目标 Q 值；目标 Q 网络：Qω’(s,a) → 固定一段时间的 Critic 副本，与 μθ’ 配合使用；

2025-10-16 23:33:17 939

原创【强化学习：12APPO与MAPPO算法深度解析：原理、流程与对比】

摘要（150字）： APPO与MAPPO均基于PPO框架，但针对不同场景优化。APPO专注于单智能体异步训练，通过多Actor并行采样、Learner集中更新的架构提升效率，适用于开放世界游戏、工业控制等任务；MAPPO则面向多智能体协作，采用CTDE（中心化训练-分散执行）架构，通过全局Critic评估团队价值，解决环境非平稳性问题，适配无人机集群、多机协同等场景。两者核心差异体现在样本处理（异步采样vs中心化价值评估）与数学建模（单/多智能体目标函数），需根据任务类型选择算法。

2025-10-14 10:20:31 851

原创【强化学习：11TRPO 与 PPO：强化学习算法对比与重要性采样解析】

本文介绍了强化学习中的TRPO和PPO算法，分析了TRPO存在的问题及PPO的创新改进。TRPO通过KL散度约束策略更新，但计算复杂、实现困难且样本利用率低。PPO提出裁剪目标函数和自适应KL惩罚，简化计算并提升稳定性，同时通过多轮迭代提高样本效率。文章还解析了重要性采样在两类算法中的作用，作为复用样本的核心数学工具。PPO凭借高效稳定的特点，成为当前强化学习的主流算法。

2025-10-14 10:18:24 1114

原创【强化学习：10MARL论文阅读笔记】

🚀 作者：“码上有前”🚀 文章简介：强化学习🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬近年来，强化学习（RL）在围棋、扑克、机器人控制、自动驾驶等多个领域取得显著成功，但这些成功应用大多涉及多智能体交互，自然属于多智能体强化学习（MARL）范畴。MARL 研究历史较长，受单智能体 RL 技术推动近年重新兴起。然而，尽管 MARL 在实证上表现出色，其理论基础仍相对薄弱，现有文献中缺乏系统且严谨的理论支撑，这一现状阻碍了 MARL 领域的进一步发展与应用拓展。本论文旨在对 MARL 进行

2025-10-13 10:53:08 458

原创【强化学习：9多智能体强化学习的架构与均衡】

🚀 作者：“码上有前”🚀 文章简介：强化学习🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬在单智能体强化学习中，智能体仅需与环境交互即可优化策略；而多智能体系统（Multi-Agent Reinforcement Learning, MARL）中，多个智能体通过竞争、协作或混合交互共同影响环境，策略优化需同时考虑 “智能体间动态博弈” 与 “环境反馈”。本文从多智能体策略的定义与核心概念切入，深入解析纳什均衡的理论基础，对比中心化与非中心化策略的差异，并重点阐述 “中心训练 - 非中心执行”

2025-10-13 00:40:57 1341

原创【强化学习：8工业界核心强化学习算法：SAC与IMPala的深度解析】

🚀 作者：“码上有前”🚀 文章简介：强化学习。

2025-10-13 00:37:33 1042

原创【强化学习：7PPO算法训练：核心超参数、评估指标与全正数奖励设计】

PPO算法训练核心要点总结超参数调优：PPO超参数分为通用型（如折扣因子γ、学习率η）和专属型（如裁剪参数ε、数据复用次数）。任务复杂度决定调优策略，简单任务（Mujoco）适用通用值（γ=0.95，ε=0.2），复杂任务（OpenAI Five）需调整（γ=0.99，学习率衰减）。评估指标：围绕性能、效率、稳定性、泛化性设计，包括平均累积奖励（性能）、样本复用率（效率）、KL散度（稳定性）和跨环境种子测试（泛化性）。TrueSkill评分适用于多智能体场景，优势分布直方图监控训练稳定性。奖励设计：全

2025-10-13 00:33:53 1084

原创【强化学习：6A2C架构：策略与价值优化的融合路径及算法演进】

🚀 作者：“码上有前”🚀 文章简介：强化学习。

2025-10-13 00:31:02 649

原创【强化学习：5策略函数与动作价值函数的优化逻辑及统一路径】

🚀 作者：“码上有前”🚀 文章简介：强化学习🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬强化学习中，策略函数（πθ(a∣s)\pi_\theta(a|s)πθ(a∣s)）与动作价值函数（Qω(s,a)Q_\omega(s,a)Qω(s,a)）的终极目标均为最大化累积奖励 R(τ)=∑t=0T−1γtrt+1R(\tau)=\sum_{t=0}^{T-1}\gamma^t r_{t+1}R(τ)=∑t=0T−1γtrt+1（τ\tauτ 为轨迹 s0,a0,r1,...,sTs_0

2025-10-13 00:29:23 754

原创【强化学习：3DQN专题】

Q学习到DQN:单在强化学习领域，DQN及其变体算法不断演进，以应对复杂多变的任务需求。基础DQN作为开山之作，借助深度神经网络、经验回放和目标网络，成功跨越了传统Q-Learning在高维状态空间的障碍，但其自身存在的价值泛化性弱、过估计、探索效率低等问题，也为后续变体算法的诞生埋下伏笔。DQN到Double DQN：率先对过估计问题发起挑战，通过分离动作选择与价值评估的网络，即在线网络负责动作挑选，目标网络进行Q值计算，大幅减少了Q值估计偏差，显著提升算法稳定性与收敛性能。

2025-10-13 00:25:09 582

原创【强化学习：4PPO算法专题】

PPO 是一种无模型（Model-Free）、策略基于（Policy-Based）的强化学习算法，其核心目标是 “在保证策略更新稳定性的前提下，最大化策略的长期累积奖励期望”。它通过 “限制新策略与旧策略的差异幅度”（即 “近邻” 约束），避免策略更新过程中因步长过大导致的性能震荡或崩溃，同时采用 “多轮数据复用” 提升样本效率，平衡了训练稳定性与学习速度。

2025-10-13 00:14:11 1551

原创【强化学习：2强化学习分类与算法综述】

强化学习算法的选择需围绕 “任务特性” 与 “资源约束” 展开：无模型算法无需建模，实现简单但样本效率低，适合环境复杂、模型难学习的场景（如游戏、高维控制）；有模型算法样本效率高，但依赖模型准确性适合交互成本高、模型可学习的场景（如机器人、工业优化）。策略优化算法擅长连续动作，价值优化算法适合离散动作，两者结合的算法则平衡了连续动作适应性与稳定性。未来强化学习的发展方向将聚焦于 “无模型与有模型的融合”“降低样本依赖”“提升复杂环境鲁棒性”，进一步拓展其在真实世界的应用边界。

2025-10-13 00:07:13 853

原创【强化学习：1强化学习基本概念】

智能体（Agent）在动态环境（Environment）中，通过感知环境状态（State）、执行动作（Action）、获取环境反馈的奖励（Reward），逐步学习到一套能最大化累积奖励的行为策略（Policy）的过程。强化学习的关键特征在于 “交互性” 和 “延迟奖励”—— 智能体无法提前获取 “正确答案”（如监督学习中的标签），只能通过持续试错，从环境的延迟反馈中反向优化行为，这也使其更贴近人类和动物的自然学习模式。

2025-10-12 23:37:14 747

原创【进阶激活函数解析：Softplus、ELU、SELU、Swish与GELU的原理与应用】

随着深度学习的发展，激活函数从早期的经典形式不断演进，衍生出更适应复杂网络架构的进阶版本。本文聚焦Softplus、ELU、SELU、Swish和GELU五种现代激活函数，深入剖析其数学原理、梯度特性、优缺点及适用场景。通过公式推导、代码实现和可视化对比，揭示这些函数在解决梯度消失、提升训练稳定性等方面的设计巧思，为神经网络架构设计提供进阶选型参考。

2025-08-23 21:28:45 878

原创【深度解析：五类经典激活函数的原理、特性与应用场景】

激活函数是神经网络的“神经末梢”，赋予模型非线性表达能力。本文聚焦线性函数（Linear Function）、ReLU、Leaky ReLU、Sigmoid、Tanh五类核心激活函数，从数学原理、计算逻辑、优缺点到实际应用场景展开深度剖析。通过公式推导、代码示例、对比表格多维呈现，帮助读者理解不同激活函数的适用边界，为神经网络架构设计提供清晰的选型参考。

2025-08-23 20:52:39 934

原创【提示工程：让大模型“听话”的核心技术——从原理到面试全解析】

本文以对话式视角拆解提示工程，先讲清其“帮大模型理解需求”的核心原理，再用流程图展示“需求分析→提示设计→优化迭代”的完整流程，拆解“指令、上下文、示例”等关键组成部分。通过表格对比不同提示类型的效果，结合代码示例说明在文本生成、代码辅助等场景的应用，最后提炼面试高频考点，帮你既懂“怎么用”，又能答“为什么”。

2025-08-19 11:22:27 1081

原创【热门AI工具：Dify、Coze、Cursor的深度剖析】

摘要本文系统分析了大模型应用层的三大工具——Dify、Coze和Cursor。Dify作为低代码开发平台，通过模块化编排实现大模型能力与外部资源的整合；Coze专注于构建多轮对话AI助手，提供可视化对话编辑器与插件生态；Cursor是面向开发者的智能代码编辑器，基于代码语义理解与生成式补全提升编程效率。文章通过技术解析、代码示例和对比表格，阐明三者的核心原理、组成架构及适用场景，为开发者选择AI工具提供决策参考，同时涵盖面试常见技术要点。关键词 Dify；Coze；Cursor；大模型应用；AI开发工具

2025-08-19 02:42:50 1152

原创【检索增强生成（RAG）：原理、架构与面试核心解析】

本文系统梳理检索增强生成（Retrieval-Augmented Generation, RAG）的发展历程，从早期概念提出到多模态融合的技术演进；深入拆解其“检索-增强”双阶段工作原理，结合流程图直观呈现核心逻辑；详细剖析检索系统、知识库、LLM交互层等关键组成部分及技术细节；并针对面试高频场景，提炼基础概念、技术优化、实践选型等核心考点，辅以代码示例（向量检索实现）与对比图表，为学习者与求职者提供全面的RAG知识体系。

2025-08-19 02:19:05 1396

原创【大模型：从起源到应用的全方位解析】

本文全面阐述大模型的起源与发展脉络，从早期模型的探索到现代超大规模模型的崛起；深入剖析其工作原理，包括基于Transformer的架构核心与自注意力机制；详细讲解工作流程，涵盖训练与推理阶段；拆解组成部分，如模型架构、训练数据等；提炼核心内容，像预训练、微调等关键技术；同时梳理大模型相关的常见面试要点，为学习者和求职者提供系统且深入的大模型知识参考。

2025-08-18 22:38:59 777

原创【大模型前沿算法探秘：MoE、RLHF、DPO、LoRA/QLoRA 原理与实践】

本文聚焦大模型领域的前沿算法，包括混合专家模型（MoE）、基于人类反馈的强化学习（RLHF）、直接偏好优化（DPO）以及低秩适配（LoRA）与量化低秩适配（QLoRA）。从算法原理出发，深入剖析各技术的核心思想、数学基础与创新点，结合实际场景，通过代码示例、图表等形式，详细阐述它们在大模型训练、优化、高效微调及部署过程中的应用，为大模型的研究者与开发者提供全面且深入的技术参考，助力理解与掌握这些推动大模型发展的关键技术。

2025-08-18 22:27:50 1203

原创【知识蒸馏：让小模型拥有大模型能力——原理、实践与代码解析】

随着深度学习模型在计算机视觉、自然语言处理等领域的性能不断突破，“大参数量、高计算成本”与“边缘设备部署、实时推理需求”的矛盾日益突出。知识蒸馏作为模型轻量化的核心技术之一，通过“教师模型（复杂、高精度）→学生模型（简单、高效）”的知识迁移，在大幅降低模型参数量与计算量的同时，保留90%以上的原模型性能。本文从知识蒸馏的核心原理出发，拆解“温度软化”“蒸馏损失”等关键技术，以CIFAR-10图像分类任务为案例，通过PyTorch实现完整蒸馏流程（ResNet152作为教师模型，MobileNetV2作为学生

2025-08-17 00:38:12 1263

原创【AI模型工程化落地指南：从ONNX标准化、TensorRT加速到Kubernetes部署】

在AI技术从实验室走向产业应用的过程中，“模型落地效率”与“服务稳定性”成为核心瓶颈——训练好的模型常因框架依赖难以跨端部署，原生推理性能无法满足实时业务需求，单机部署又难以应对流量波动。本文以“标准化-加速-规模化”为核心逻辑，系统讲解ONNX（跨框架模型中间表示）、TensorRT（GPU推理加速）、Kubernetes（K8s，容器化编排）三大技术的原理与实践，通过可复现的代码实例（ResNet-50模型全链路操作）、可视化图表（性能对比、部署架构），验证技术效果：经TensorRT优化后，模型推理延

2025-08-17 00:11:03 899

原创【人工智能面经第六期：梯度问题、过拟合与收敛加速】

深度神经网络在近年来取得了显著的成功，但在训练过程中常面临梯度消失、梯度爆炸、过拟合以及收敛速度慢等关键挑战。本文系统阐述了这些问题的成因，并详细介绍了对应的解决方法，包括权重初始化、批量归一化、残差连接、正则化、Dropout、优化器选择等。此外，本文提供了基于PyTorch框架的示例代码，展示了如何在实际应用中集成这些技术，以提高深度神经网络的训练稳定性、泛化能力和效率。

2025-07-18 00:34:02 1014

原创【数据结构与算法第五期：滑动窗口原理、方法与实战应用】

本文系统剖析滑动窗口算法，从原理出发，结合 Python 代码示例，讲解其基本方法、前置知识，梳理解法技巧与适配场景。通过经典 LeetCode 题目（长度最小的子数组、无重复字符的最长子串等），对比不同算法，明晰滑动窗口的优势与应用边界，助力读者精准掌握该算法，提升算法解题与工程实践能力。

2025-07-14 21:20:09 1062

原创【数据结构与算法第四期：滑动窗口算法经典题型解析：思路、解法与对比】

本文聚焦 LeetCode 中 4 道滑动窗口经典题目（长度最小的子数组、无重复字符的最长子串、串联所有单词的子串、最小覆盖子串），深入剖析滑动窗口解题思路，提供 Python 解法，提炼技巧要点。同时补充其他可行方法，从时间复杂度、空间复杂度、适用场景多维度对比，助力读者透彻理解滑动窗口算法的应用逻辑与优势边界。

2025-07-14 20:43:52 779

原创【数据结构与算法第三期：双指针算法全解析：原理、方法与应用场景】

本文深度剖析双指针算法，从原理出发，结合 Python 代码示例，讲解其基本方法、前置知识，梳理解法技巧与适配场景。通过经典案例对比不同算法，助力读者精准掌握双指针算法，提升算法解题能力与工程实践应用水平。

2025-07-14 17:03:43 844

原创【数据结构与算法第二期：双指针算法经典题型深度解析：思路、解法与对比】

本文聚焦 LeetCode 中 5 道双指针典型题目（验证回文串、判断子序列、两数之和 II - 输入有序数组、盛最多水的容器、三数之和），详细剖析双指针解题思路、实现代码，梳理技巧要点。同时补充其他解法的完整代码，从时间复杂度、空间复杂度、适用场景多维度对比双指针法与其他方法，助力读者透彻理解双指针算法的应用逻辑与优势边界。

2025-07-14 16:41:54 461

原创【数据结构与算法第一期：数组（列表）核心操作与原地修改技术详解】

数组（列表）是数据结构中最基础且应用最广泛的线性结构之一，其连续的内存存储特性使其具备高效的访问性能。本文聚焦数组的常用操作方法与原地修改技术，系统梳理了增删改查等基础操作的实现逻辑，并通过实例解析原地修改的核心技巧（如双指针法、反向遍历等）。掌握这些内容对于解决算法问题中的数组操作场景至关重要，能显著提升代码的时间与空间效率。原地修改指不创建新数组，直接在原数组上通过覆盖、交换等操作修改元素，从而实现目标功能。其核心优势是节省空间（空间复杂度O(1)），这在算法题中是常见的优化要求。

2025-07-13 17:07:20 1032

原创【人工智能面经第五期：模型训练与优化核心面试深度问答】

围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。

2025-07-10 19:37:28 1137

原创【人工智能面经第四期：人工智能与深度学习基础理论深挖面试问答】

本文聚焦人工智能与深度学习基础理论中的数学基础（优化理论、概率论与信息论）和经典模型对比（CNN变体、RNN与Transformer ），通过针对性提问与解答，深入剖析各知识点的原理、应用及差异，助力读者夯实基础理论知识，适配人工智能与计算机视觉岗位面试，明晰不同理论和模型在实际技术场景中的价值与区别。

2025-07-10 19:27:13 1233

海龟画图一个胶囊表情包

使用海龟画图画出一个表情包中的胶囊

2024-05-15

文本分类DUDUDUdu

2024-04-17

使用python+spider+baiduMap实现过去全国的城市信息

2024-02-28

python+flask调用大华接口获取摄像头拍摄的图片

2024-02-28

python+flask实现全国企业大数据可视化

使用python+flask实现全国企业大数据可视化

2024-02-28

Python网络编程之UDP聊天室

1. 基本要求：设计 Server 端和 Client端，可以实现多用户同时聊天通信以及私聊等。 2. 设计语言：Python、C/C++。 3. python套接字socket在UDP协议上的程序设计。 4. 技术难点：用户注册、聊天记录保存到数据库中， 5.特殊要求：要求要有易用，美观，高价值的图形化界面、个性化特色等。

2024-02-11

Python网络编程之实现Ping命令

1. 基本要求：理解 ping 工作原理，编程实现 ping 程序。 2. 设计语言：Python、C/C++。 3. 原理：发送 ICMP 的回送请求报文，接收 ICMP 报文，并分析该报文（可能收到差错报告报文，也可能正常收到 ICMP 回送回答报文）。 4. 技术难点：构造 ICMP 回送请求报文并封装到 IP 数据报中，将该 IP 数据报发送出去并分析收到的结果，输出结果中一些统计信息的计算与呈现（图形化界面）。带有不同参数运行程序，其结果不同，即实现 windows 中 ping 命令部分选项功能，例如，发送 ICMP 报文数量、IP 中 TTL 设置等。

2024-02-11

Python网络编程实现DHCP服务器

使用Python网络编程实现DHCP服务器，在理解 DHCP 协议的基础上，编写一个 DHCP 服务器，为网络中的主机动态分配 IP 地址等信息。 2. 设计语言：Python、C/C++。 3. 原理：根据 DHCP 工作过程，即 DHCP 正常工作的所需的几种 DHCP报文，在收到的客户的 DHCP 报文之后，服务器正确构造相应的 DHCP 响应报文并发送给 DHCP 客户。 4. 技术难点：分析收到 DHCP 客户发送的报文并正确发送响应 DHCP 报文。最终效果：计算机能从运行的 DHCP 服务器程序获取 IP 地址等信息。

2024-02-11

Python网络编程之TCP三次握手

1. 基本要求：理解三次握手、四次挥手过程及序号变化。 2. 设计语言：Python、C/C++。 3. 原理：利用 TCP 报文中的 SYN、SYN+ACK、ACK 报文与服务器某程序（例如端口 80、端口 23）建立 TCP 连接，然后向服务器发送部分数据，最后用四报文挥手释放连接。亦可参考计算机网络综合实验教程中的实验 11，编写一个简单的服务器程序，并与其建立连接、传输数据并释放连接。 4. 技术难点：TCP 握手和挥手过程中 seq 和 ack 的变化情况，准确构建对应的 TCP 报文段，发送这些报文段，接收并分析返回结果。另外，当运行程序的计算机收到服务器发来的 TCP 报文段之后（例如第二次握手的报文），计算机可会发送 RST 报文给服务器，这个 RST 报文必须丢弃，如何丢弃 RST 报文，需要在 linux 中实现（windows 丢弃 RST 包的方法较难），因此，该程序需在 Linux 中实现并运行。

2024-02-11

TA关注的人

海龟画图一个胶囊表情包

文本分类DUDUDUdu

使用python+spider+baiduMap实现过去全国的城市信息

python+flask调用大华接口获取摄像头拍摄的图片

python+flask实现全国企业大数据可视化

Python网络编程之UDP聊天室

Python网络编程之实现Ping命令

Python网络编程实现DHCP服务器

Python网络编程之TCP三次握手

Vscode快捷键中文版

Export2Excel.js

Export2Excel.js

Vue中打印所必备资源！Bolo_Export2Excel

Python调用大华SDK进行视频抓图