- 博客(18)
- 资源 (5)
- 收藏
- 关注
原创 包括连续和离散动作空间的任务,涵盖不同的RL算法,同时仅简要提及sim-to-real背景下的类似硬参数迁移工作。
包括连续和离散动作空间的任务,涵盖不同的RL算法,同时仅简要提及sim-to-real背景下的类似硬参数迁移工作。
2025-05-30 12:08:27
719
原创 Successor features for transfer in reinforcement learning》论文阅读
之前读了《Universal Value Function Approximators 》一直对于论文中提到的迁移耿耿于怀于两点:第一,这个迁移是指什么?到底何种程度的迁移,真实像文章中 说的一样,训了10个点,然后将其扩展到没有训练的其它5个点上去吗(这不就是监督学习中的泛化吗?第二,如果不是泛化过程,而是迁移,那技术上如何实现,是把训练好的统一值函数保存下来吗?
2025-04-30 16:06:21
1051
1
原创 Universal Value Function Approximators 论文阅读(强化学习,迁移?)
这也是我前两次无解的原因之一,因为我一直以为这个实验的最终目的是吃尽可能多的豆子(每个"demon"是一个负责学习特定子目标价值函数的独立DQN实例并不是游戏中的敌人,也不是多个Pac-Man (游戏中确实只有一个Pac-Man角色)),而伪奖励(Pseudo-reward)只是子任务,会有进行迁移然后完成最终任务,但是我自始至终没有看到相关描述,所以这里的迁移很可能只是测试验证泛化性的那种意思!MS Pacman的游戏的设定在这里也改了:Pac-Man需要吃掉所有豆子同时避开敌人。
2025-04-26 16:39:47
1108
1
原创 标准蒙特卡洛积分估计定义式到数值逼Robbins-Monro 形式推导过程——对应北大DRLp26
图中第二个公式是对第一个均值公式的递推形式重写,使得你可以在线更新qtq_tqt,不需要存储所有的fxif(x_i)fxi。当设αt1tαtt1,两者是等价的。
2025-04-20 20:17:07
908
原创 ros的手眼标定精度不高
推测是ARmark包的识别有一定问题,所以将这一步替换成用matlab标定工具获取相机和标定板的RT,然后用opencv函数来求解。R_all_end_to_base_1=[],R_all_chess_to_cam_1=[]建议12组以上。
2024-07-03 14:55:13
301
原创 学习机械臂强化学习(现有资源https://zhuanlan.zhihu.com/p/372962974)
机械臂强化学习,别人的代码学习记录1
2022-11-19 20:39:57
3027
原创 Vscode突然没法调试python2.7
Vscode突然没法调试python2.7,且报错: ...........import _thread as thread; verify_shadowed.check(thread, ['start_new_thread', 'start_new', 'allocate_lock']) ImportError: No module named _thread。国内很多帖子都说改啥launch,这是不对的,重装后也没用,这是因为python的微软宽展包出了问题,把他回滚到22年之前就行了(大概率是不
2022-05-08 17:39:12
1873
7
原创 2021-05-31
另外还提供了一个moveit_commander,这是MoveGroupCommander种笛卡尔的包装版本吗?cpp似乎多一点:TheMoveGroupInterfaceclass can ...
2021-04-15 11:08:01
296
原创 2021-03-25Ubuntu常用命令记录:
Ubuntu常用命令记录:调整系统字体大小:gsettings set org.gnome.desktop.interface text-scaling-factor 1.2
2021-03-25 16:48:12
268
直接向控制器发送轨迹位置,不经过plan接口
2022-07-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人