- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 π* 0.6 解读:一个真正“能从真实经验中学习”的 VLA
π* 0.6模型通过引入强化学习(RECAP算法)改进现有Vision-Language-Action模型的三大问题:泛化能力不足、成功率低和动作不流畅。该模型采用离线真机强化学习,通过价值网络评估状态进展,策略网络基于优势条件筛选优质动作。训练过程分三步:数据收集、网络预训练和任务迭代优化。实验证明,该方法能有效提升机器人在真实场景中的表现,使VLA模型具备从执行经验中持续学习改进的能力,突破了传统依赖人类示范的性能上限。
2025-12-22 16:55:41
632
原创 强化学习笔记--DDPG算法,PPO算法,SAC算法
之前DQN的学习笔记中提到,DQN只适合动作空间有限的离散动作场景,要用到连续动作场景比较麻烦。DDPG算法则刚好相反,只能用到连续动作场景,不能用到离散动作场景。DDPG算法核心只是在DQN算法上改了动作的生成方式,它也是一种off-policy算法。不同于DDPG算法,PPO算法是一类既适用于连续动作空间,也适用于离散动作空间的Actor-Critic算法。PPO算法因为其稳定,不需要怎么调超参就能训出较好的结果,所以常被用做基准算法,建议重点掌握。
2025-08-01 23:15:06
1950
原创 强化学习笔记--策略梯度和Actor-Critic算法
之前DQN算法文章里提到DQN一般适用于有限动作的离散场景。因为它是基于价值的方法,训练出Q网络后,需要做一个max操作才能得到动作。正是因为这个原因,要让它用于连续场景比较麻烦。除了基于值函数的方法,还有一类基于策略(policy-based)的方法,既可以用于离散场景又可以用于连续场景。基于策略的方法则是直接显式地学习一个目标策略。策略梯度就是策略优化的方向,用于不断迭代更新。
2025-07-28 23:40:07
926
原创 强化学习笔记--DQN算法及其改进
回忆一下之前的Q-learning算法,Q-learnig是通过Q表格建模状态和动作的方法来学习,这种方法只能在有限状态空间和有限动作空间。对于Q-learning不熟悉的同学可以参考我之前的文章深度学习爆发后,DQN通过利用深度学习网络可以表达任意的非线性函数的特性来拟合Q函数取到了很好的效果。这也使得它成为了第一个在高维复杂环境中,稳定且有效地将深度学习与强化学习结合起来的算法。CartPole环境是机器人学习任务中最基础的一个强化学习环境。
2025-07-25 22:07:18
1145
原创 强化学习笔记--深度学习基础
深度学习网络具有强大的非线性拟合能力,在图像和语言任务中基本已经成为了一种范式。现在流行的深度强化学习基本都是通过深度学习网络来解决高纬度的复杂问题,特别是有图像输入的任务。相比于目前深度学习中的监督学习,其实可以将强化学习理解成一种新的学习方法,模型可以理解成一个等待学习的大脑。这样就可以将深度学习中常用的网络应用到强化学习中,解决强化学习的问题。由于深度学习本身就是一门课,内容很多。下面主要简单介绍后续可以用到的常用深度学习网络,后续还想要深入了解的话,读者可以参考李宏毅深度学习教程。建议可以结合。
2025-07-21 22:28:24
1018
原创 强化学习笔记--免模型预测,免模型控制
马尔可夫决策过程中有预测和控制这两个基本问题。预测问题是指给定一个马尔可夫决策过程以及一个策略 𝜋,计算它的价值函数,也就是计算每个状态的价值。控制问题是指给定一个马尔可夫决策过程以及一个策略 𝜋,同时输出它的最佳价值函数以及最佳策略。预测是控制的基础。之前我们提到用动态规划算法的前提是环境状态转移概率是已知的,这类基于环境模型的算法我们统称为有模型算法。但对于大部分强化学习现实场景(例如电子游戏或者一些复杂物理环境),其马尔可夫决策过程的状态转移概率是无法写出来的。
2025-07-19 22:44:11
1092
原创 强化学习笔记--绪论、马尔可夫决策过程、动态规划
学习强化学习首先要搞清楚我们要解决的问题是什么,才能知道怎么去解决这个问题。马尔可夫决策过程就是对现实问题建模的一种方法。虽然很多现实问题并不具备马尔可夫性质,但将问题近似为马尔可夫决策过程可以大大简化问题的复杂度,并且在实践中可行。所以,马尔可夫决策过程成了工程上常用的建模方法,学习它非常重要。动态规划算法是求解马尔可夫决策过程问题的经典方法之一,主要包括策略迭代和价值迭代这两种算法。这两种算法虽然目前很少会用到,但是对于推导更复杂的强化学习算法起到了奠定基础的作用,建议掌握。过程的概念来自概率论。
2025-07-16 23:09:24
791
1
原创 DeepSeek中的强化学习算法GRPO可以用在机器人学习中吗?可以!手搓GRPO代码从入门到“放弃”
最近Deepseek火了,因为它以低成本的训练方式训出了和OpenAI sota的GPT模型相当的效果。Deepseek大佬们在开源周陆续开源了他们的核心技术,其中最重要的一项技术就是强化学习算法GRPO。GRPO抛弃了传统PPO算法中的价值网络,节省了大量的运算,顿时轰动了大语言模型行业内外。PPO算法一开始在机器人领域大放光彩,特别是运动控制领域,它基本上是机器人强化学习的首选。这个时候不禁有很多人会想,既然GRPO在大语言模型的学习过程中这么牛,那能不能用到机器人学习中呢?
2025-03-14 17:11:03
1607
3
原创 机器学习笔记-目标检测评价标准mAP的理解
mAP是用来评估目标检测任务性能的一个重要指标。m代表的是mean的缩写,mAP是对于所有类别的AP求平均得到的。所以,只要明白的AP值怎么计算,mAP就很好理解了。AP的计算又由recall(查全率)和precision(查准率)计算而来,recall(查全率)和precision(查准率)计算又必须要知道什么是混淆矩阵。所以本笔记首先讲解什么是混淆矩阵,然后再讲解recall(查全率)和precision(查准率)的计算方法。有了这些基础之后,AP的计算方法自然就容易理解了。
2025-01-18 17:23:13
1936
原创 ubuntu安装最新mujoco的方法- 2022.5.10
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、安装 mujoco python二、安装 mujoco simulator1.下载mujoco2.运行mujoco simulator 进行测试总结前言自从DeepMind收购mujoco之后,DeepMind立马就把mujoco就开源了,这波白给是真的香!由于网上充斥着很多之前mujoco的安装方法,过程复杂。所以,本文针对这一问题提供了最新的mujoco安装方式,操作极其简单!!一、安装 mujoco pyt.
2022-05-10 21:05:43
2701
5
CoppeliaSim_Edu_V4_0_0_Ubuntu16_04.tar.xz
2020-03-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅