u小鬼
码龄10年
关注
提问 私信
  • 博客:157,387
    社区:583
    问答:1,321
    动态:1,851
    视频:11
    161,153
    总访问量
  • 105
    原创
  • 143,152
    排名
  • 1,363
    粉丝
  • 20
    铁粉
  • 学习成就

个人简介:a melancholy programmer

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2014-11-08
博客简介:

qq_23096319的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,357
    当月
    8
个人成就
  • 获得305次点赞
  • 内容获得93次评论
  • 获得833次收藏
  • 代码片获得748次分享
创作历程
  • 6篇
    2024年
  • 43篇
    2023年
  • 36篇
    2022年
  • 20篇
    2021年
成就勋章
TA的专栏
  • 论文阅读
    4篇
  • 课程学习
    19篇
  • ACM23
    6篇
  • utils
    2篇
  • 机器人学
    6篇
  • CSP 认证
    11篇
  • 安卓开发
    1篇
  • 嵌入式
    5篇
  • 控制理论
    3篇
  • 机器学习
    21篇
  • 经验分享
    4篇
  • ACM
    21篇
  • Creo三维建模
    1篇
  • 数模
    3篇
兴趣领域 设置
  • 数据结构与算法
    算法
  • 人工智能
    机器学习
  • 嵌入式
    嵌入式硬件
  • 数学
    动态规划线性代数概率论图论
  • 前沿技术
    机器人
  • 开源
    github
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论文阅读:Walk These Ways: 通过行为多样性调整机器人控制以实现泛化

通过学习得到的运动策略可以迅速适应与训练期间经历的类似环境,但在面对分布外测试环境失败时缺乏快速调整的机制。这就需要一个缓慢且迭代的奖励和环境重新设计周期来在新任务上达成良好表现。作为一种替代方案,我们提出学习一个单一策略,该策略编码了一个结构化的运动策略家族,这些策略以不同的方式解决训练任务,从而产生行为的多样性(MoB)。不同的策略具有不同的泛化能力,并且可以实时为新任务或环境选择,绕过了耗时的再训练需求。
原创
发布博客 2024.04.04 ·
1925 阅读 ·
18 点赞 ·
1 评论 ·
21 收藏

论文阅读:机器人跑酷学习

跑酷对腿部机动性是一项巨大的挑战,要求机器人在复杂环境中快速克服各种障碍。现有方法可以生成多样化但盲目的机动技能,或者是基于视觉但专门化的技能,这些技能通过使用参考动物数据或复杂的奖励来实现。然而,自主跑酷需要机器人学习既基于视觉又多样化的技能,以感知并应对各种情景。在这项工作中,我们提出了一种系统,用于学习一个单一的端到端基于视觉的跑酷策略,该策略具有多样化的跑酷技能,并使用简单的奖励,而不需要任何参考动作数据。
原创
发布博客 2024.03.19 ·
1266 阅读 ·
29 点赞 ·
0 评论 ·
25 收藏

ETH开源PPO算法学习

项目地址:https://github.com/leggedrobotics/rsl_rl项目简介:快速简单的强化学习算法实现,设计为完全在 GPU 上运行。这段代码是 NVIDIA Isaac GYM 提供的 rl-pytorch 的进化版。下载源码,查看目录,整个项目模块化得非常好,每个部分各司其职。下面我们自底向上地进行讲解加粗的部分。rsl_rl/││ │ppo.py # PPO算法的实现│ │├─env/
原创
发布博客 2024.02.28 ·
1676 阅读 ·
23 点赞 ·
0 评论 ·
25 收藏

两个高斯分布KL散度推导

Kullback-Leibler 散度(KL散度),也称为相对熵,是衡量两个概率分布相对差异的一种方法。KL散度是非对称的,这意味着从分布。计算两个连续概率分布的KL散度涉及积分运算,因为连续分布的概率是通过概率密度函数 (pdf) 定义的。KL散度在机器学习、统计建模和信息论中有广泛的应用,例如在模型选择、贝叶斯推理和变分推断中。第三部分是一个标准的高斯积分,其结果是 1,因为高斯分布的总积分为 1。这里是一个计算两个高斯分布KL散度的例子,其中。这是两个高斯分布之间的KL散度的封闭形式解。
原创
发布博客 2024.02.27 ·
2380 阅读 ·
32 点赞 ·
1 评论 ·
38 收藏

强化学习策略梯度推导

这一步表明状态分布被规范化了,使得所有状态的分布之和为1。这个公式是策略梯度定理的表述,它表明一个策略的性能梯度(即优化目标函数。通过梯度上升算法,我们可以改善策略,使得在高价值。加上折扣后的未来奖励的期望值。​下采取的动作更加频繁,从而提高整体策略的期望回报。每个状态的特征向量与它被访问的概率加权求和。此处,将目标函数中的期望展开,包含从初始状态。最终,我们得到了策略梯度定理的标准形式。,以及在这些状态下,采取不同动作的价值。的梯度)与在该策略下各状态的访问频率。和采取这些动作的策略概率的梯度。
原创
发布博客 2024.02.21 ·
1047 阅读 ·
22 点赞 ·
0 评论 ·
17 收藏

论文阅读:四足机器人对抗运动先验学习稳健和敏捷的行走

介绍了一种新颖的系统,通过使用对抗性运动先验 (AMP) 使四足机器人在复杂地形上实现稳健和敏捷的行走。主要贡献包括为机器人生成AMP数据集,并提出一种教师-学生训练框架来学习稳健和敏捷的运动技能。该系统在现实世界应用中显示出前景,克服了先前依赖广泛环境感应或手工设计模型的方法的限制。通过强化学习(RL)训练的单一策略可以使用简洁的奖励函数和并行训练程序获得既稳健又敏捷的运动。从AMP学习的步态风格展示了从平坦地形的运动数据集到现实世界中的具有挑战性地形的zero-shot泛化。
原创
发布博客 2024.02.16 ·
2104 阅读 ·
21 点赞 ·
1 评论 ·
26 收藏

pdf合并(python)

工具代码,背景是某门课的ppt章节分类得过于详细,比如1.01,然后一份pdf文件只有几页,故借助PyPDF2进行pdf文件合并。
原创
发布博客 2023.09.22 ·
348 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

强化学习——价值学习

强化学习和监督学习最大的区别是有没有显式的ground truth可以对训练进行监督。这里DL通过折扣回报关联了前后两个时刻,而且预测未来越短的时间动作序列具有越高的准确率,据此构造了一个隐式的ground truth,在TD算法中是TD对象,对模型参数进行更新。不同的策略对应不同的动作价值函数,可以理解为策略的一种表现形式,最优者定义为。其实际产生方式都是从分布中采样得到,所以折扣回报也是随机变量。其中约等于左边是预测,右边是TD对象,记为。根据折扣回报的定义可以得到。首先引入折扣回报的概念,
原创
发布博客 2023.08.06 ·
483 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

cf edu152 C. Binary String Copying(字符串双哈希)

这个方法可以拓展到由任意字符构成的字符串,不过编码比较复杂,要取模。同时单哈希还会被卡,要用两个基做双哈希才行。的字符排序,实际就是调整为0在前1在后,问得到的m个副本有多少个不同串。,可以通过拼接10,000,11,0四个串的哈希值得到。给定一个01字符串,长度为n,拷贝m份,对每一份进行相应操作:将。去求某个字符串的哈希值了。逆过来,也可以求某个子串的哈希值,将基的幂次预处理可以。可以标识一个拷贝串,直接将数对放进集合中统计就可以了。预处理连续0串和1串的哈希值。,和往右第一个1的位置。
原创
发布博客 2023.07.28 ·
504 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

论文阅读:Learning quadrupedal locomotion over challenging terrain(SCIENCE ROBOTICS 2020)

项目链接:https://leggedrobotics.github.io/rl-blindloco/像LiDAR和相机等外部传感器无法感知地面的诸如摩擦和顺应性等物理特性,在雪地、覆满植被的具有挑战性的地形下,需要将机器人的本体感受作为输入,控制器快速产生针对如保持平衡,避免自我碰撞等等多个目标的全身轨迹规划。读的第一篇Anymal相关的论文,没太搞清楚问题的formulation呜呜,几乎get不到方法的巧妙,感觉得往前追溯。还有补充强化学习的基础。
原创
发布博客 2023.07.27 ·
497 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

计算机体系结构标量处理机

添加该任务,用移位之后的向量(前一个任务在流水线中的剩余部分)和初始的冲突向量按位或得到新的冲突向量。下例中为(3,4,6),可以预见用禁止向量中的数作为下一个任务的启动距离会导致流水线的冲突。对于上面的例子,一个任务执行7个时间片,因此启动距离为7时流水线已经排空,上一个任务已经结束。(1)先行指令缓冲栈已经充满,此时指令流出速度最快,例如连续分析RR型指令 ,设这种指令序列的最大长度为。下图为最小启动循环的(1,1,7)的预约表。(2)先行指令缓冲栈原来为空,此时指令流出速度最慢,指令流入的速度最快。
原创
发布博客 2023.05.28 ·
854 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

计算机体系结构存储系统

前者主要目的是提高存储器速度,后者有主存储器和硬盘构成,主要用于扩大存储器容量。可见访问效率主要与命中率和两级存储器的速度之比有关,访问效率实际上是表示存储系统访问速度能到达系统中访问较快组件的百分之多少。通过打表查看,加速比和存储体个数以及程序转移概率之间的关系,由于转移指令的存在,实际的加速比大受限制。是每个存储周期内能够访问到的平均有效字个数,通常称为并行存储器的加速比。,即读出的是转移指令且转移成功的概率。个字不是转移指令或者是不成功的转移指令,第。个字是转移指令且成功转移。的概率密度函数PDF,
原创
发布博客 2023.05.20 ·
805 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【数据结构】Treap树堆

Treap就是Tree+heap,首先有二叉搜索树(BST)的数据,treapCnt记录当前的节点总数,节点和键值的映射key,每个节点的左右儿子childs,以及一个键可能存在多个副本,用cnt记录副本数,size记录子树大小,用于查找第k大元素。堆相关的数据:每个节点的优先级priority,这个优先级在创建节点时随机生成,保证了Treap的深度不会太大。
原创
发布博客 2023.05.06 ·
686 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

语义分析与中间代码生成

在之前的语法制导翻译中,我们学习了翻译模式,为文法定义匹配的语义动作,通过这个“动作”可以生成代码,但为了进行与机器无关的代码优化工作,选择生成中间代码(四元式),而不是机器代码。下面对每一类语句设计翻译模式,这里一个翻译模式就是一个“算法”。
原创
发布博客 2023.05.05 ·
1279 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

Nachos系统的上下文切换

之前在阅读的时候,有一段SWITCH注释让我很迷惑,“You may have to think a bit to figure out what happens after this, both from the point of view of the thread and from the perspective of the “outside world”.”,这个从外部世界去看是什么意思?现在,我也许有了答案。Nachos终归是运行在Linux上的操作系统,用了很多设计。
原创
发布博客 2023.04.28 ·
1135 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

SVD求解ICP问题

最开始想到这个问题,是想进行手眼标定,有一台机械臂以及一个深度相机,如何确定相机坐标系和机械臂坐标系之间的变换关系?后来想使用接口将机械臂末端移动至某个位姿,在深度相机图像中标出该点位置(通过专门的标注工具),这样得到了一个三维点在两个坐标系下的表示,这实际构建了一个方程组。已知一组三维点在两个坐标系中的坐标表示,求这两个坐标系之间的变换关系,称为ICP问题。ICP问题也常常在SLAM和无人驾驶的研究中出现,也称为3D点云之间的匹配问题,传感器外参的标定问题。的正交矩阵,根据约束,,根据SVD的定义,
原创
发布博客 2023.04.21 ·
876 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

计算机体系结构基本概念,指令系统

但是huffman操作码的长度很不规整,硬件译码比较困难,与地址码共同组成固定长度的指令比较困难,因此一般使用扩展编码法,限定几种码长。Huffman编码可以用Amdahl定律的方式来理解,对最频繁出现的指令使用最短的编码(着重优化)。RISC思想的精华就是减少CPI,即每条指令的执行时间,同时会缩短时钟周期,而由于每条指令的功能简单了,完成相同的任务RISC需要更多的指令。由于规格化的要求,尾数的第一位不能为0(基数为2的情况下一定是1),因此尾数第一位仅有。的任务,因此扩展的Amdahl定律为。
原创
发布博客 2023.04.19 ·
710 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

UR5构型机械臂正逆运动学

整理之前的一个项目,当时看着一个博客硬生生计算了差不多一个星期。尝试用MatLab符号推导工具箱化简一部分工作。我使用的大象机器人一款开源入门级协作机器人产品myCobot,开发文档十分完善,但是有部分技术没有开源,如正逆运动学(Forward and inverse kinematics, KF/IK),因此我自己尝试实现了。机器人的具体型号:myCobot 280 M5 2020款。reference。
原创
发布博客 2023.04.15 ·
4098 阅读 ·
4 点赞 ·
7 评论 ·
84 收藏

属性文法和语法制导翻译

前面通过词法分析,语法分析,DFA最后接受了一个输入实际上是理解了某一句编程语句,编译器的角色是将高级程序语言编译(翻译)为汇编代码,通过词法、语法分析编译器可以理解高级程序语言了,那么如何实现输出汇编代码和创建变量等等这一系列动作?属性文法,通过为产生式配备属性的计算规则,通过计算和传递属性处理语义,实现这一系列动作。
原创
发布博客 2023.04.13 ·
536 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

LR分析法浅理解

代表已经匹配了,可以用该产生式进行归约。如果进行归约,则状态栈需要弹出产生式右部长度个数量的状态,相应地这些状态之间的连接弧上对应的字符和输入状态匹配了。拓广文法,简化程序的逻辑,无需对接收项目特殊处理。闭包求取,这个过程产生的新项目数不会超过产生式的个数,而且往往遵循一个固定的模式,这里可以用新符号简化替代由某个非终结符号带来的项目集合。LR(0)分析表的构造,根据Go,填写Action的。
原创
发布博客 2023.04.10 ·
1422 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏
加载更多