u小鬼-CSDN博客

原创逐际动力开源运控 tron1-rl-isaacgym 解读与改进

如图所示，模型在重构中能够较好地捕捉大尺度结构，尤其是高程分布和主要形状，但在细节还原上表现不足，高频纹理和锐利边缘往往被平滑化，这是卷积自编码器常见的问题。为此，我将原框架9×13分辨率（0.1m网格）扩展为64×64网格，覆盖6.4m×6.4m的局部地形范围，显著提升了导航规划能力。网络的输入是连续n帧的观测数据，输出为3维线速度估计值。以往我们在使用观测值堆叠或LSTM/GRU等时序模型时，往往不会过多关注最终输出向量的物理含义（特别是在游戏类决策环境中），但机器人任务为此提供了良好的切入点。

2025-08-11 22:02:07 1830

原创随机游动算法解决kSAT问题

随机游动算法解决kSAT问题

2025-05-28 23:07:14 1059

原创论文阅读：Walk These Ways: 通过行为多样性调整机器人控制以实现泛化

通过学习得到的运动策略可以迅速适应与训练期间经历的类似环境，但在面对分布外测试环境失败时缺乏快速调整的机制。这就需要一个缓慢且迭代的奖励和环境重新设计周期来在新任务上达成良好表现。作为一种替代方案，我们提出学习一个单一策略，该策略编码了一个结构化的运动策略家族，这些策略以不同的方式解决训练任务，从而产生行为的多样性（MoB）。不同的策略具有不同的泛化能力，并且可以实时为新任务或环境选择，绕过了耗时的再训练需求。

2024-04-04 11:31:15 4379 1

原创论文阅读：机器人跑酷学习

跑酷对腿部机动性是一项巨大的挑战，要求机器人在复杂环境中快速克服各种障碍。现有方法可以生成多样化但盲目的机动技能，或者是基于视觉但专门化的技能，这些技能通过使用参考动物数据或复杂的奖励来实现。然而，自主跑酷需要机器人学习既基于视觉又多样化的技能，以感知并应对各种情景。在这项工作中，我们提出了一种系统，用于学习一个单一的端到端基于视觉的跑酷策略，该策略具有多样化的跑酷技能，并使用简单的奖励，而不需要任何参考动作数据。

2024-03-19 18:36:53 1952 1

原创 ETH开源PPO算法学习

项目地址：https://github.com/leggedrobotics/rsl_rl项目简介：快速简单的强化学习算法实现，设计为完全在 GPU 上运行。这段代码是 NVIDIA Isaac GYM 提供的 rl-pytorch 的进化版。下载源码，查看目录，整个项目模块化得非常好，每个部分各司其职。下面我们自底向上地进行讲解加粗的部分。rsl_rl/││ │ppo.py # PPO算法的实现│ │├─env/

2024-02-28 18:19:02 4039 1

原创两个高斯分布KL散度推导

Kullback-Leibler 散度（KL散度），也称为相对熵，是衡量两个概率分布相对差异的一种方法。KL散度是非对称的，这意味着从分布。计算两个连续概率分布的KL散度涉及积分运算，因为连续分布的概率是通过概率密度函数 (pdf) 定义的。KL散度在机器学习、统计建模和信息论中有广泛的应用，例如在模型选择、贝叶斯推理和变分推断中。第三部分是一个标准的高斯积分，其结果是 1，因为高斯分布的总积分为 1。这里是一个计算两个高斯分布KL散度的例子，其中。这是两个高斯分布之间的KL散度的封闭形式解。

2024-02-27 14:36:44 4911 1

原创强化学习策略梯度推导

这一步表明状态分布被规范化了，使得所有状态的分布之和为1。这个公式是策略梯度定理的表述，它表明一个策略的性能梯度（即优化目标函数。通过梯度上升算法，我们可以改善策略，使得在高价值。加上折扣后的未来奖励的期望值。下采取的动作更加频繁，从而提高整体策略的期望回报。每个状态的特征向量与它被访问的概率加权求和。此处，将目标函数中的期望展开，包含从初始状态。最终，我们得到了策略梯度定理的标准形式。，以及在这些状态下，采取不同动作的价值。的梯度）与在该策略下各状态的访问频率。和采取这些动作的策略概率的梯度。

2024-02-21 17:49:36 1475

原创论文阅读：四足机器人对抗运动先验学习稳健和敏捷的行走

介绍了一种新颖的系统，通过使用对抗性运动先验 (AMP) 使四足机器人在复杂地形上实现稳健和敏捷的行走。主要贡献包括为机器人生成AMP数据集，并提出一种教师-学生训练框架来学习稳健和敏捷的运动技能。该系统在现实世界应用中显示出前景，克服了先前依赖广泛环境感应或手工设计模型的方法的限制。通过强化学习（RL）训练的单一策略可以使用简洁的奖励函数和并行训练程序获得既稳健又敏捷的运动。从AMP学习的步态风格展示了从平坦地形的运动数据集到现实世界中的具有挑战性地形的zero-shot泛化。

2024-02-16 21:45:30 4459 5

原创 pdf合并（python）

工具代码，背景是某门课的ppt章节分类得过于详细，比如1.01，然后一份pdf文件只有几页，故借助PyPDF2进行pdf文件合并。

2023-09-22 00:29:12 457

原创强化学习——价值学习

强化学习和监督学习最大的区别是有没有显式的ground truth可以对训练进行监督。这里DL通过折扣回报关联了前后两个时刻，而且预测未来越短的时间动作序列具有越高的准确率，据此构造了一个隐式的ground truth，在TD算法中是TD对象，对模型参数进行更新。不同的策略对应不同的动作价值函数，可以理解为策略的一种表现形式，最优者定义为。其实际产生方式都是从分布中采样得到，所以折扣回报也是随机变量。其中约等于左边是预测，右边是TD对象，记为。根据折扣回报的定义可以得到。首先引入折扣回报的概念，

2023-08-06 13:08:34 698

原创 cf edu152 C. Binary String Copying（字符串双哈希）

这个方法可以拓展到由任意字符构成的字符串，不过编码比较复杂，要取模。同时单哈希还会被卡，要用两个基做双哈希才行。的字符排序，实际就是调整为0在前1在后，问得到的m个副本有多少个不同串。，可以通过拼接10,000,11,0四个串的哈希值得到。给定一个01字符串，长度为n，拷贝m份，对每一份进行相应操作：将。去求某个字符串的哈希值了。逆过来，也可以求某个子串的哈希值，将基的幂次预处理可以。可以标识一个拷贝串，直接将数对放进集合中统计就可以了。预处理连续0串和1串的哈希值。，和往右第一个1的位置。

2023-07-28 20:20:30 603

原创论文阅读：Learning quadrupedal locomotion over challenging terrain（SCIENCE ROBOTICS 2020）

项目链接：https://leggedrobotics.github.io/rl-blindloco/像LiDAR和相机等外部传感器无法感知地面的诸如摩擦和顺应性等物理特性，在雪地、覆满植被的具有挑战性的地形下，需要将机器人的本体感受作为输入，控制器快速产生针对如保持平衡，避免自我碰撞等等多个目标的全身轨迹规划。读的第一篇Anymal相关的论文，没太搞清楚问题的formulation呜呜，几乎get不到方法的巧妙，感觉得往前追溯。还有补充强化学习的基础。

2023-07-27 15:26:40 1344

原创计算机体系结构标量处理机

添加该任务，用移位之后的向量（前一个任务在流水线中的剩余部分）和初始的冲突向量按位或得到新的冲突向量。下例中为(3,4,6)，可以预见用禁止向量中的数作为下一个任务的启动距离会导致流水线的冲突。对于上面的例子，一个任务执行7个时间片，因此启动距离为7时流水线已经排空，上一个任务已经结束。（1）先行指令缓冲栈已经充满，此时指令流出速度最快，例如连续分析RR型指令，设这种指令序列的最大长度为。下图为最小启动循环的(1,1,7)的预约表。（2）先行指令缓冲栈原来为空，此时指令流出速度最慢，指令流入的速度最快。

2023-05-28 20:58:41 1051

原创计算机体系结构存储系统

前者主要目的是提高存储器速度，后者有主存储器和硬盘构成，主要用于扩大存储器容量。可见访问效率主要与命中率和两级存储器的速度之比有关，访问效率实际上是表示存储系统访问速度能到达系统中访问较快组件的百分之多少。通过打表查看，加速比和存储体个数以及程序转移概率之间的关系，由于转移指令的存在，实际的加速比大受限制。是每个存储周期内能够访问到的平均有效字个数，通常称为并行存储器的加速比。，即读出的是转移指令且转移成功的概率。个字不是转移指令或者是不成功的转移指令，第。个字是转移指令且成功转移。的概率密度函数PDF，

2023-05-20 22:20:08 970

原创【数据结构】Treap树堆

Treap就是Tree+heap，首先有二叉搜索树（BST）的数据，treapCnt记录当前的节点总数，节点和键值的映射key，每个节点的左右儿子childs，以及一个键可能存在多个副本，用cnt记录副本数，size记录子树大小，用于查找第k大元素。堆相关的数据：每个节点的优先级priority，这个优先级在创建节点时随机生成，保证了Treap的深度不会太大。

2023-05-06 22:22:39 835

原创语义分析与中间代码生成

在之前的语法制导翻译中，我们学习了翻译模式，为文法定义匹配的语义动作，通过这个“动作”可以生成代码，但为了进行与机器无关的代码优化工作，选择生成中间代码（四元式），而不是机器代码。下面对每一类语句设计翻译模式，这里一个翻译模式就是一个“算法”。

2023-05-05 17:28:02 1679

原创 Nachos系统的上下文切换

之前在阅读的时候，有一段SWITCH注释让我很迷惑,“You may have to think a bit to figure out what happens after this, both from the point of view of the thread and from the perspective of the “outside world”.”，这个从外部世界去看是什么意思？现在，我也许有了答案。Nachos终归是运行在Linux上的操作系统，用了很多设计。

2023-04-28 21:19:53 1342

原创 SVD求解ICP问题

最开始想到这个问题，是想进行手眼标定，有一台机械臂以及一个深度相机，如何确定相机坐标系和机械臂坐标系之间的变换关系？后来想使用接口将机械臂末端移动至某个位姿，在深度相机图像中标出该点位置（通过专门的标注工具），这样得到了一个三维点在两个坐标系下的表示，这实际构建了一个方程组。已知一组三维点在两个坐标系中的坐标表示，求这两个坐标系之间的变换关系，称为ICP问题。ICP问题也常常在SLAM和无人驾驶的研究中出现，也称为3D点云之间的匹配问题，传感器外参的标定问题。的正交矩阵，根据约束，，根据SVD的定义，

2023-04-21 20:19:09 1171

原创计算机体系结构基本概念，指令系统

但是huffman操作码的长度很不规整，硬件译码比较困难，与地址码共同组成固定长度的指令比较困难，因此一般使用扩展编码法，限定几种码长。Huffman编码可以用Amdahl定律的方式来理解，对最频繁出现的指令使用最短的编码（着重优化）。RISC思想的精华就是减少CPI，即每条指令的执行时间，同时会缩短时钟周期，而由于每条指令的功能简单了，完成相同的任务RISC需要更多的指令。由于规格化的要求，尾数的第一位不能为0（基数为2的情况下一定是1），因此尾数第一位仅有。的任务，因此扩展的Amdahl定律为。

2023-04-19 20:12:48 829

原创 UR5构型机械臂正逆运动学

整理之前的一个项目，当时看着一个博客硬生生计算了差不多一个星期。尝试用MatLab符号推导工具箱化简一部分工作。我使用的大象机器人一款开源入门级协作机器人产品myCobot，开发文档十分完善，但是有部分技术没有开源，如正逆运动学（Forward and inverse kinematics, KF/IK），因此我自己尝试实现了。机器人的具体型号：myCobot 280 M5 2020款。reference。

2023-04-15 21:43:24 5804 9

原创属性文法和语法制导翻译

前面通过词法分析，语法分析，DFA最后接受了一个输入实际上是理解了某一句编程语句，编译器的角色是将高级程序语言编译（翻译）为汇编代码，通过词法、语法分析编译器可以理解高级程序语言了，那么如何实现输出汇编代码和创建变量等等这一系列动作？属性文法，通过为产生式配备属性的计算规则，通过计算和传递属性处理语义，实现这一系列动作。

2023-04-13 17:04:36 682

原创 LR分析法浅理解

代表已经匹配了，可以用该产生式进行归约。如果进行归约，则状态栈需要弹出产生式右部长度个数量的状态，相应地这些状态之间的连接弧上对应的字符和输入状态匹配了。拓广文法，简化程序的逻辑，无需对接收项目特殊处理。闭包求取，这个过程产生的新项目数不会超过产生式的个数，而且往往遵循一个固定的模式，这里可以用新符号简化替代由某个非终结符号带来的项目集合。LR(0)分析表的构造，根据Go，填写Action的。

2023-04-10 19:31:39 1826

原创 LL(1)分析法浅理解

文法后面两个两个条件都是为了保证预测分析表每个单元格中至多有一个产生式，这样预测分析时的工作每一步都是确定的。算法执行过程，首先执行①②③，之后，反复对所有产生式不断执行④⑤（循环遍历），直到所有。，因此，只需要考虑非终结符号即可。前面三点执行一次，最后两点需迭代执行，因为。均是终结字符的集合，而且可以简化为仅对终结字符进行求取。推导到最后，产生所有式子的第一个字符集合，因此。是只有自己作为元素构成的集合，进一步，候选式。为非终结符号的情形即可，终结符号的。非常明确，执行该产生式，要么出现。

2023-03-30 22:00:09 1165

原创平衡小车动力学建模

两轮自平衡小车由车体和双轮两部分组成，可以看成一个移动的倒立摆，分别对车轮和车体进行力学分析，建立动力学模型，最后，通过对两者的分析给出系统的状态空间表达式。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kjiPEUVJ-1679470559950)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20230322110521545.png)]

2023-03-22 15:38:07 8982 19

原创正规式与有限自动机的等价性

的情况下的状态转换矩阵，一个状态由输入输出标识，我们去研究所有出现状态的输入输出，得到新状态，反复进行这一过程，最后得到的就是对应。，和后面的状态化简，合并状态，使状态数减少不同，确定化可能存在一个状态出现在多个状态子集中，它实际上是在消除。（因为即使有交集，可以复制两份，用两个不同的命令一个加入。带来的影响，而且消除的办法很简单，就是求不考虑。虽然这里给出的是归纳法证明，书上也有正规式。的状态转换图上增加两个结点。，进一步通过子集法确定化为。个运算符的正规式成立，当。补充一点理解，确定化，将。

2023-03-21 21:39:13 865

原创 CCF CSP认证2022年9月题解防疫大数据

考前哇十发，考试顶呱呱。

2023-03-18 22:41:40 516

原创 CCF CSP认证2022年12月题解聚集方差（树上启发式合并）

这是因为，如果一个节点连向父节点的边是轻边，则存在一个子树大小不小于它的兄弟节点，那么父节点的子树大小至少是该节点的2倍。后，最后一个子节点的info是可以复用的。子树和子树有相互包含的关系，可以据此实现一些信息的复用，比如下图，如果我在操作以2号节点为根的子树之后去操作整棵树（即以1号节点为根的子树），此时，并不需要清空。，聚集方差实际上是在一个可重复集合（一棵子树的所有节点）中找每个数最相近的数，我一开始想到了用。首先，观察到加入一个节点，只可能改变值相邻两个节点的聚集方差贡献，设加入的数为。

2023-03-16 17:53:10 2179 4

原创【图论】树上启发式合并

这是因为，如果一个节点连向父节点的边是轻边，则存在一个子树大小不小于它的兄弟节点，那么父节点的子树大小至少是该节点的2倍。因此，每经过一条轻边，子树大小就翻倍，所以最多经过。（有些博客说，dsu同dsu on tree没有关系，个人认为这是这两个算法想法上的相通之处，暴力而优雅）所以，每个节点作为轻子树上的节点最多只会被遍历。树链剖分的一个结论，一个节点到根节点最多经过。上二分操作）的复杂度，该问题中总时间复杂度为。只会遍历轻子树上的节点，而。一一对应，所以复杂度从。，乘上计算info（

2023-03-16 17:52:14 430

原创 CCF CSP认证2022年12月题解现值计算、训练计划、JPEG 解码

题目约束科目最多只有一个依赖，这样的图是森林，实际上，可以推广到。初始化为1，最早可以从第1天开始训练。，这样保证最后一天完成所有训练。计算各个价值，最后求和。

2023-03-16 16:45:55 781

原创 ubuntu工作站配置

断断续续地折腾了一阵子，总算基本配置完成了，用这篇博客记录一下。操作系统：ubuntu 22.04 LTS。

2023-03-15 22:29:22 2566

原创倒立摆建模

系统由一辆具有动力的小车和安装在小车上的倒立摆组成，系统是不稳定，我们需要通过控制移动小车使得倒立摆保持平衡。具体地，考虑二维情形如下图，控制力为水平力FFF，输出为角度θ\thetaθ以及小车的位置xxx。

2023-03-07 22:00:52 809

原创 CCF CSP认证2022年6月角色授权

太久没有写模拟题了，复健运动O(∩_∩)O哈哈~

2023-03-05 19:50:26 327

原创【数论】fft模板

在O(nlogn)时间内将系数表示多项式转化为点值表示，n个点确定一条n−1次的多项式曲线，后者可以O(n)时间内完成高精度乘法。而这n个点的取法是有讲究的，，对，将x的取值扩展到复数域，这些点也称为单位根，定义为ωnkcosnk2πisinnk2π，默认n为2的整数次幂。对于多项式Axa0a1xa2x2...an−1xn−1将项根据下标的奇偶性分别为两部分，Axa0a2。

2023-03-04 14:48:56 598

原创山东大学机器学习期末2022

本来是不想写的，因为不想回忆起考试时啥也不会的伤痛，没想到最后给分老师海底捞，心情好了一些，还是一块写完。

2023-02-27 22:25:20 1968

原创动态系统的建模与分析

CS小菜鸡控制理论入门视频学习笔记动态系统的建模与分析】9_一阶系统的频率响应_低通滤波器_Matlab/Simulink分析。

2023-02-23 20:33:20 471

原创山东大学2022算法期末

接力：2020 计科∀dvfu](uv∈Evuvust(ut)ctmaxctminCutcu]))

2023-02-14 19:18:06 1988

原创山东大学2022操作系统期末

（2）上述过程用到了文件系统的哪些数据结构（我把能想到的都写了，FCB，PCB，文件目录表，全局文件打开表，进程文件打开表）（1）从open打开文件，到变量c获得数据，操作系统做了什么（懵，这题15分呢）3. ppt原题，结合进程树，说明代码会输出几个“Hello World”＋实验，去年考了shell。＋ ppt ，考了很多原题。

2023-02-14 18:48:33 2992 1

原创 Problem Set 1

1.先证：当矩阵A的列向量组线性无关，则矩阵ATAA^TAATA可逆。设ATAX=0A^TAX=0ATAX=0，如果ATAA^TAATA可逆则方程有唯一解X=0X=0X=0,原命题等价于证明当矩阵A的列向量组线性无关，则ATAX=0A^TAX=0ATAX=0有唯一解X=0X=0X=0，有XTATAX=0X^TA^TAX=0XTATAX=0，变换得(AX)TAX=0(AX)^TAX=0(AX)TAX=0，AX=0AX=0AX=0，设A=[a1,a2,...,an]A=[a_1,a_2,...,a_n]

2023-02-09 11:06:44 605

原创 OS引导过程

ESCD 更新完毕后，系统BIOS 的启动代码将进行它的最后一项工作，即根据用户指定的启动顺序从软盘、硬盘及光驱等启动操作系统。以Windows为例。

2023-02-06 14:34:34 713

原创最小生成树的性质及证明

是MST，所以新加上的边一定是环上最大的，环上的其他边只能来自。是任意一棵生成树，将所有边以非递减的次序排列，即。，这些边会形成多个连通分支，而每个。性质二可以应用两次性质三推出。数某个最小生成树边的子集，且。中边权重值构成的有序列表，中边权重值构成的有序列表。中，形成一个环，所有边均在。的两端点均在同一个分支中，是其他的最小生成树，则有。任意一个最小生成树，且。是另一个MST，且包含。属于一棵最小生成树。是环上的另一条边，则。不失一般性，假设存在。是树中的边，至多形成。

2023-02-03 14:59:56 2457

圣诞树python源码

python爬取豆瓣短评

空空如也