跳跳糖炒酸奶-CSDN博客

原创基于深度学习的单目深度估计综述阅读（1）

虽然有监督训练模型是有真实深度图的，但依然存在全局尺度问题导致估计结果不稳定，譬如，对于一个使用普通房间图片训练得到的深度估计模型，当利用它来估计一个房屋玩具模型图片的深度时，往往会得到比真实值更大的深度估计结果，这是由于图片缺少全局尺度信息，模型并不清除待预测深度的具体范围所导致的，全局尺度模糊将影响模型的泛化能力。上面这张图清晰的给出了有监督方法的训练流程，神经网络根据输入的RGB图像预测每个像素点的深度值，再通过该预测深度和原始真实深度之间的差异来训练模型。会变大，loss 反而变小（被减掉）

2026-01-16 13:39:06 619

原创第十二章、GPT2：Language Models are Unsupervised Multitask Learners（理论部分）

阅读经典论文是想深入任何领域都必须经历的过程，接下来让我们看看openai的经典之作GPT2。下述内容包含很多个人观点可能存在有问题的地方，欢迎一起讨论。文本问答、机器翻译、阅读理解等自然语言处理任务，通常是通过在特定任务的数据集上进行监督学习来实现的。本文通过将语言模型放在WebText数据集上进行训练，证明实际上语言模型并不需要明确的监督学习就可以学到这些特定任务的知识。我们给模型一篇文章，然后问它几个关于这篇文章的问题。

2026-01-14 17:26:18 1008

原创第九章、Transformers库使用（3）：可用模型

在此之前，我们已经简单学习过如何使用pipeline，本章将进一步学习transformers库大该都支持哪些模型。模型类别及简单介绍自回归模型：是在经典的语言建模任务上进行预测的，对应于原始的Transformer模型的解码器，在整个句子之上使用掩码，以便注意力头只能看到文本中之前的内容，而不能看到之后的内容。它可以在各种任务上作微调，表现效果也不错，但是最自然的还是文本生成，代表性案例即GPT。自编码模型：自编码模型的预训练学习的是随机破坏输入token并尝试恢复原始句子的过程。

2025-11-14 17:50:48 859

原创问题十、isaacsim 独立脚本错误解决:ModuleNotFoundError: No module named ‘_tkinter‘

某些时候我们想在isaacsim的独立脚本中实现matplotlib的交互式后端，方便我们实时的看相机传感器的图片或者是根据相机图片做一些实时的检测的结果。但是遗憾的是，直接往isaacsim的python环境中安装并不合适也不现实，那应该如何解决这个问题呢？本来对于普通的conda环境而言实际上，我们只需要在所需的环境下运行。你可以通过在isaacsim的文件夹下运行。的报错，并且无法实时的显示你想看的图片。此时，在isaacsim的文件夹下运行。在你的独立代码的最前面添加下面两行。

2025-11-12 11:39:59 90

原创第十一章、GPT1：Improving Language Understanding by Generative Pre-Training（代码部分）

对于代码部分首先先把代码运行起来，其次逐块来看每部分代码在做什么。

2025-11-07 18:00:59 913

原创第十章、GPT1：Improving Language Understanding by Generative Pre-Training（理论部分）

前面我们已经对transfoemer模型以及transformers库做了详细的介绍，接下来我们来看看GPT系列的开篇之作，GPT1它提出了生成式预训练模型，也是至今为止大语言模型的常用训练方式。论文：https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf代码：https://github.com/openai/finetune-transformer-lm。

2025-10-31 16:07:59 1132

原创第八章、Transformers库使用（2）:如何创建一个pipeline

在前一章中我们已经学习了transformers库的基本用法，本章将介绍如何创建一个你自己的pipeline.官方网站：https://huggingface.co/docs/transformers/main_classes/modelhttps://github.com/huggingface/transformershttps://huggingface.co/docs/transformers/add_new_pipeline当你确定了输入输出之后，你就可以开始建立你的pipeline，新的pipe

2025-10-24 17:21:27 929

原创第七章、Transformers库使用（1）

在开始之前我们先简单介绍一下Transformers库出现的原因，github Transformers项目首页写着State-of-the-art pretrained models for inference and training，实际上，在bert出现后，NLP模型就意识到了与训练的重要性，而对于模型接口的统一更方便了NLP的发展。

2025-10-13 11:55:32 944

原创第六章、从transformer到nlp大模型：编码器-解码器模型 (Encoder-Decoder)

模型架构模型类型代表模型特点纯编码器模型 (Encoder-Only)只使用 Transformer 的编码器部分双向自注意力【双向模型BERT双向的。像一个可以同时扫视整个句子的分析者。常用来解决理解任务（分类、提取）纯解码器模型 (Decoder-Only)只使用 Transformer 的解码器部分掩码自注意力（单向）【自回归模型GPT, LLaMA单向的（通常是从左到右）。像一个只能从左往右读的阅读器。常用来解决生成任务（创作、对话）编码器-解码器模型 (Encoder-Decoder)

2025-09-08 16:33:55 1153

原创第五章、Transformer详解

观察上面的图，实际上transformer本身的架构非常简单，整体上就是由“N个编码器+N个解码器+全连接层”组成。内部包含的一些重要模块将在下面逐一进行详细的分析。位置编码公式：PE(pos,2i)=sin(pos100002i/d_model)PE(pos,2i)=sin(\frac{pos}{10000^{2i/d\_model}})PE(pos,2i)=sin(100002i/d_modelpos)PE(pos,2i+1)=cos⁡(pos100002i/d_model)PE(po

2025-09-01 17:43:13 1059

原创第四章、自编码器（Auto-Encoder, AE）

监督学习本身需要大量的标记数据，而标注基本都是靠人工完成。那么是否可以单纯利用样本本身对数据进行处理，以获取数据的重要特征是非常关键的任务，对应的实际上统计学中有很多类似的算法，比如主成分分析等，利用其协方差矩阵做特征分解来进行特征提取。本章中的自编码器，通过编码器和解码器两部分来实现通过对自身的学习，来进行特征提取。

2025-08-19 11:05:17 399

原创第三章、GRU（门控循环网络，Gated Recurrent Unit）

在前面我们已经介绍了RNN和LSTM两种循环神经网络，LSTM能及大程度上减少梯度爆炸和梯度消失，但是它的设计结构复杂计算代价高，经过多种尝试及对比提出了新的简化方法GRU。

2025-08-14 13:45:10 7635

原创第二章、LSTM(Long Short-term Memory：长短时记忆网络)

RNN（循环神经网络）本身存在各种各样的缺陷，比如梯度弥散、梯度爆炸和短时记忆的问题。为弥补RNN的这些问题，瑞士人工智能科学家于1997提出了Long Short-term Memory（长短时记忆网络），即现在常用的LSTM。

2025-08-10 18:43:22 1043

原创第十五章、非合作关系设定下的多智能体强化学习

根据上一章的内容，已知完全合作关系下的多智能体利益一致有相同的目标，而非合作关系下实际上智能体的奖励和回报都是不一样的，它们都在努力让自己的利益最大化而并不考虑整体利益。

2025-08-07 19:20:39 1133

原创 1、ROS2 foxy安装及gazebo仿真安装

本人系统：ubuntu20.04。

2025-07-29 12:57:29 502

原创西门子报文通讯

报文类似与PLC和驱动器之间用哪种“语言”和“指令集”进行沟通。

2025-07-23 11:44:33 1813 1

原创第十四章、完全合作关系设定下的多智能体强化学习（MAC-A2C）

根据上一章的内容，已知完全合作关系下的多智能体利益一致有相同的目标，获得的奖励相同即Rt1Rt2Rt3Rt1Rt2Rt3。

2025-07-23 10:51:44 1029

原创知识点3：python-sdk 核心概念（prompt、image、context）

所有内容均以官方为主，可结合食用～系统：ubuntu 20.04。

2025-07-16 16:43:22 1295

原创知识点2：MCP：python-sdk 核心概念（Server、Resources、Tools）

所有内容均以官方为主，可结合食用～系统：ubuntu 20.04MCP让我们可以通过一种标准且安全的方式创建一个服务端用来将数据和函数功能块暴露给LLM应用程序，可以把它想象成一个专门为LLM交互设计的web API。通过Resources暴露数据(可以把它想象成GET；它们用于将信息加载到LLM的上下文中。通过Tools提供功能（类似与POST；用来执行代码或触发外部系统的状态变化。通过Prompts定义交互模型(它直接作用于 LLM 的提示词层面。

2025-07-14 17:05:35 933

原创知识点1：MCP：python-sdk（安装及体验）

所有内容均以官方为主，可结合食用～系统：ubuntu 20.04MCP允许应用程序以一种标准化的方式提供上下文信息给LLM，将提供上下文信息和直接与LLM交互这两个工作流拆分开。传统LLM集成需要将上下文处理逻辑直接嵌入应用代码，MCP将其解耦为独立服务。创建MCP客户端可以连接到任意一个MCP的服务端应用通过MCP Server提供结构化上下文，MCP Client获取标准化上下文，开发者专注LLM提示工程，无需处理底层数据集成。

2025-07-10 19:53:01 1012

原创第十三章、多智能体系统（MAS）

由于现实环境中通常存在多个智能体，且各个智能体与环境交互的过程中会影响到其他智能体，因此本章介绍多智能体系统。

2025-07-09 13:24:17 914

原创第一章、RNN（循环神经网络）

假设我们现在有一个时间序列的预测问题，以股票为例（不考虑环境政策等问题，仅从数据出发为理解RNN），我们想从过去的数据中估计下一天股票会涨还是跌。现在的问题是历史信息的维度在变化，如果我们能综合历史信息把它提取成一个长度不变的向量就好了，RNN本质上就是在做这样的事情。那直观的理解这个网络的作用实际上就是结合当前的信息和历史中有用的信息综合输出相应的结果，及结合当前信息后的总历史信息。的长度在不停的变化，而我们之前学习的卷积也好全连接也好都是固定输入维度的，那怎么解决。时刻而言，网络的输入是。

2025-07-08 18:12:01 727

原创第十二章、状态的不完全观测

前面的研究中实际上我们都在默认一个事情，即智能体可以完全的观测环境，实际上智能体以板腔况下智能观测到环境的一部分，本章就是解决这种状态的不完全观测问题。

2025-07-07 14:22:42 1049

原创问题九、单个机器人关节控制（python）

该部分是基于python的单个机器人中不同关节的控制代码案例，可以通过需要自行改写，将会对每部分的代码做详细解释。

2025-07-04 17:25:37 196

原创第十一章、基于随机高斯策略的连续控制问题

上几章中我们介绍了DDPG及其优化后的TD3模型，其出现实际上是为了解决动作空间连续的问题。本章介绍另一种解决方案，DDPG和TD3的策略都是确定性策略，而本章介绍的随机高斯策略是一个随机策略（注：什么是随机策略呢？实际上就是有概率的策略，我们可以根据动作的概率去对动作进行抽样）。

2025-07-04 14:38:48 943

原创第十章、TD3（twin delayed deep deterministic policy gradient,双延迟深度确定性策略梯度）

由于DDPG存在高估问题导致其效果并不好，本节介绍twin delayed deep deterministic policy gradient(TD3,双延迟深度确定性策略梯度)。

2025-07-02 15:24:51 1177

原创第九章、DDPG(Deep deterministic policy gradient,深度确定性策略梯度)

DDPG的提出实际上是为了解决动作空间的连续性问题，回忆一下之前的策略网络π\piπ，它的输入是状态sss，输出是对应的动作空间中每个动作的概率。所以我们之前的算法所对应的问题都是离散的动作空间下的。

2025-06-27 14:15:18 655

原创小知识点五、无刷电机闭环控制(电流)

该部分只用于自学使用，作为笔记方便后续自查。硬件：2208云台电机+MT6701磁编码器。

2025-06-26 19:34:14 1385

原创第八章、PPO(Proximal Policy Optimization, 近端策略优化算法)

PPO是对TRPO的优化，TRPO在求最大值问题上直接使用泰勒展开近似、共轭梯度、线性搜索等方法直接求解，这个计算量非常大。基于这个问题PPO算法被提出，该算法在实现上更加简单。

2025-06-26 11:28:45 1258

原创第五章、遥操作及模仿学习（Teleoperation and Imitation Learning）

官方文档：https://isaac-sim.github.io/IsaacLab/main/source/overview/teleop_imitation.htmlisaaclab中提供了SE(2) 和 SE(3) 空间的接口用于描述刚体运动的指令。要使用键盘设备进行反向运动学 (IK) 控制：同样的可以使用 SpaceMouse等专业的 6 自由度（6-DoF）输入设备进行控制。变化NVIDIA Isaac Lab 结合 CloudXR 和手部追踪技术，提供了一种沉浸式机器人遥操作方案，适用

2025-06-20 17:34:36 2068

原创第七章、TRPO(trust region policy optimization:置信域策略优化)

表现更加稳定，收敛曲线不会剧烈波动，而且对学习率不敏感。用更少的经验（即智能体收集到的状态、动作、奖励）就能达到与策略梯度方法相同的表现。

2025-06-20 13:34:11 528

原创第六章、A2C（advantage actor-critic:带基线的actor-critic）

A2C作为Actor-Critic算法的优化算法，学习效果更好，与Actor-Critic算法相同是一个策略学习框架下的算法。

2025-06-19 20:44:47 1044

原创小知识点四、无刷电机闭环控制(速度)

该部分只用于自学使用，作为笔记方便后续自查。硬件：2208云台电机+MT6701磁编码器。

2025-06-18 19:51:42 1252

原创小知识点三、无刷电机闭环控制(位置)

该部分只用于自学使用，作为笔记方便后续自查。硬件：2208云台电机+MT6701磁编码器。

2025-06-13 17:11:23 958

原创小知识点二：无刷电机开环控制

该部分只用于自学使用，作为笔记方便后续自查。

2025-06-11 16:14:42 931

原创问题八、Articulation中的actuator（执行器）

配置好关节机器人之后我们发现一般情况下，其实Isaacsim和Isaaclab都不会直接通过代码控制每一个关节的driver，而是对整个机器人创建一个树结构（Articulation）在通过配置参数来控制机器人运动，其中比较重要的就是actuator(执行器模型)。先更新文档中的理论部分，代码部分会后续完善。这个子包 (isaaclab.actuators) 提供了不同执行器模型的实现。执行器模型用于模拟关节中执行器的行为。这些模型通常用于仿真，以模拟不同的执行器动态和延迟。isaaclab中主要支持两类执

2025-06-11 13:42:06 378

空空如也

空空如也