
机器人-强化学习
文章平均质量分 76
wangdx_robot
这个作者很懒,什么都没留下…
展开
-
机器人操作综述——A Review of Robot Learning for Manipulation: Challenges, Representations, and Algorithms
机器人操作综述——A Review of Robot Learning for Manipulation: Challenges, Representations, and Algorithms原创 2023-02-15 16:09:54 · 1146 阅读 · 0 评论 -
解决robosuite设置has_offscreen_renderer=True时报错ERROR: GLEW initalization error: Missing GL version
是因为mujoco-py会自带openGL,而我自己又在nvidia显卡驱动里安装了openGL,当使用可视化绘图(has_renderer=True)时,会使用mujoco-py自带的openGL,当不进行显示时(has_offscreen_renderer=True),会使用自己安装的openGL,自己装的openGL版本太高就会报错ERROR: GLEW initalization error: Missing GL version。原创 2022-11-02 15:07:34 · 777 阅读 · 1 评论 -
robosuite(mujoco)中机械臂action与实际运动不一样的解决办法
最近开始搞机械臂强化学习,所以下了robosuite(https://github.com/ARISE-Initiative/robosuite)和stable_baselines3(https://github.com/DLR-RM/stable-baselines3),在测试demo时,发现了一个共同的问题。以robosuite的demo_random_action.py为例,在基于UR5e的Lift任务中,设置机械臂控制模式为末端位姿控制,发布action[0,0,0.01,0,0。原创 2022-10-31 20:17:11 · 3326 阅读 · 2 评论 -
机器人强化学习——Comparing Task Simplifications to Learn Closed-Loop Object Picking Using DRL(2019 RAL)
任务是reach、grasp、lift,比较了reward shaping、curriculum learning、迁移学习,并迁移到了真实机器人场景中。本文抓取的方法框架是QT-Opt。尽管迁移到现实场景中的抓取成功率只有78%,但是通过更好的sim-to-real方式能提高。平移的action使运动有点不稳,policy预测速度或扭矩会使运动更平滑。原创 2022-10-24 16:58:45 · 884 阅读 · 0 评论 -
机器人强化学习——Data-Efficient Hierarchical Reinforcement Learning
以前的分层强化学习在一个学习的嵌入空间中表示goal和reward,本文直接使用原始形式的观测数据作为goal。并且以前的方法使用on-policy学习 生成目标状态,效率低。离线学习面临的问题:(1)off-policy算法不稳定(2)在离线数据中,相同的高维goal不一定对应相同的低维action。具体解释在后面针对第二个问题,本文提出。原创 2022-10-15 16:02:21 · 913 阅读 · 0 评论 -
机器人强化学习——IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control。。(ICRA 2020)
算法核心:将策略木比分解为两步:(1)低维目标导向的模仿学习(2)高维目标选择低维控制器从演示数据中学习短期序列。高维目标选择机制为一个生成模型,生成目标和对应的值函数。给定当前观测,高维控制器选择一个新目标,低维控制器走TTT步来达到该目标;该过程重复直到任务结束。本文主要解决的问题是:如何仅从大尺度的离线数据中学习policy,不与环境进行交互。原创 2022-10-15 10:00:44 · 554 阅读 · 0 评论 -
为什么PPO不可以像DQN一样使用Replay Buffer?——强化学习
为什么PPO不可以像DQN一样使用Replay Buffer?——强化学习原创 2022-10-12 09:52:16 · 2455 阅读 · 0 评论 -
为什么DQN不需要important sampling?——强化学习
分析这个问题要从重要性采样和target policy的本质出发,本文分为以下三步来介绍DQN为什么不需要重要性采样:重要性采样的目的、target policy和behavior policy的含义、DQN为什么不需要重要性采样。原创 2022-10-11 17:55:06 · 1313 阅读 · 0 评论 -
机器人学习之ReorientBot: Learning Object Reorientation for Specific-Posed Placement(ICRA 2022)
机器人学习之ReorientBot: Learning Object Reorientation for Specific-Posed Placement(ICRA 2022)原创 2022-08-17 17:42:26 · 582 阅读 · 0 评论 -
机器人强化学习——COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing(21 ICRA)
机器人强化学习——COCOI: Contact-aware Online Context Inference for Generalizable Non-planar Pushing(21 ICRA)原创 2022-07-28 22:55:47 · 1987 阅读 · 0 评论 -
机器人强化学习——Learning Collaborative Pushing and Grasping Policies in Dense Clutter(ICRA 2021)
机器人强化学习——Learning Collaborative Pushing and Grasping Policies in Dense Clutter(ICRA 2021)原创 2022-07-09 22:08:35 · 771 阅读 · 0 评论 -
机器人强化学习——Learning Visual Affordances with Target-Orientated DQN to Grasp Objects (ICRA 2021)
机器人强化学习——Learning Visual Affordances with Target-Orientated DQN to Grasp Objects (ICRA 2021)原创 2022-07-08 18:02:56 · 747 阅读 · 0 评论 -
机器人强化学习——Learning Pregrasp Manipulation of Objects from Ungraspable Poses (ICRA 2020)
机器人强化学习——Learning Pregrasp Manipulation of Objects from Ungraspable Poses (ICRA 2020)原创 2022-07-08 10:22:23 · 1959 阅读 · 4 评论 -
机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)
机器人强化学习——Learning Synergies between Pushing and Grasping with Self-supervised DRL (2018)原创 2022-07-01 09:22:00 · 473 阅读 · 0 评论 -
机器人强化学习——第一人称 VS 第三人称
机器人强化学习——第一人称 VS 第三人称原创 2022-06-27 20:09:32 · 501 阅读 · 0 评论 -
机器人强化学习——Transferring End-to-End Visuomotor Control from Simulation to RealWorld (CoRL 2017)
机器人强化学习——Transferring End-to-End Visuomotor Control from Simulation to RealWorld (CoRL 2017)原创 2022-06-26 20:28:24 · 643 阅读 · 0 评论 -
MAML (Model-Agnostic Meta-Learning) 解读
MAML (Model-Agnostic Meta-Learning) 解读原创 2022-06-21 17:55:27 · 923 阅读 · 0 评论 -
机器人强化学习——Sim-to-Real Robot Learning from Pixels with Progressive Nets (2017)
机器人强化学习——Sim-to-Real Robot Learning from Pixels with Progressive Nets (2017)原创 2022-06-17 22:23:04 · 1966 阅读 · 0 评论 -
ubuntu20.04 安装 mujoco
ubuntu20安装mujoco记录原创 2022-06-14 19:56:36 · 888 阅读 · 2 评论 -
基于强化学习的机器人抓取之 stochastic search
前言最近看google的机器人抓取算法QT-Opt,该方法通过stochastic search为每一个state选择action。沿着参考文献一路找到google的Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection,以及Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Si原创 2022-05-25 17:14:37 · 778 阅读 · 0 评论