
强化学习
文章平均质量分 58
目前正在筹备计划、摸索中,拥抱变换,接受改变。
思考实践
以身作则,静待花开。长期主义,宇宙主义,价值导向。多角度分析问题,积极解决问题,不要停下来。THU-phd,CAS-master.
展开
-
RL中的rollout和episode的区别请问是啥
Episode 是一个完整的任务过程(从起点到终点),而 Rollout 是指“用当前策略与环境交互得到的一个或多个 trajectory 的过程”,可包括多个 episode。原创 2025-04-17 20:42:20 · 545 阅读 · 0 评论 -
强化学习——SAC||为什么引入最大化熵(soft goal)
的直觉可以理解为:在给定当前状态的情况下,策略应该在不确定的情况下保持一定的随机性,而不是总是选择一个确定的动作。意味着让智能体的行为不那么确定和固定,而是鼓励它去探索更多可能的选择,这样它就不会陷入过早的局部最优。因此,最大化熵是 SAC 的一个关键创新,它使得 SAC 在强化学习中的探索和利用之间达到了更好的平衡。在策略中,较高的熵表示智能体的行为更为随机,较低的熵表示行为更为确定。:尝试新的、未知的行为,可能导致更大的回报,但也可能浪费时间。,确保策略保持一定的随机性,从而促进更多的探索。原创 2025-04-02 10:02:08 · 470 阅读 · 0 评论 -
强化学习-解惑?① 一般强化学习的value model 是不是就是Actor-critic的 Critic呢② 那么V(s)和 Q(s,a)区别是啥呢
在强化学习中通常指代用来估计状态或动作的价值函数的部分。在方法中,Critic计算并提供这些价值函数的估计,评估当前策略的好坏。因此,可以说Critic就是强化学习中的,它的主要任务是提供一个估值机制,用来指导Actor改进策略。原创 2025-03-28 02:05:25 · 335 阅读 · 0 评论 -
强化学习分类
https://zhuanlan.zhihu.com/p/645324378强化学习详解:价值、策略与模型方法-CSDN博客原创 2025-01-30 19:19:18 · 164 阅读 · 0 评论 -
wzx-jmw:NFL合理,但可能被颠覆。2023-2024
As well known by all, NFL is ... 没有免费的午餐理论 No Free Lunch Theorem_免费午餐理论-CSDN博客However, if we...原创 2023-10-03 01:45:17 · 350 阅读 · 0 评论 -
策略梯度(Policy Gradient)的公式理解与其地位
它通过直接优化策略函数,适应了连续动作空间和高维状态空间的问题,同时能够支持多样化的策略表达形式和直接利用强化信号进行优化,为解决复杂的强化学习任务提供了有效的方法和工具。直接优化策略:与传统的值函数方法(如Q-learning)不同,策略梯度方法直接优化策略函数,而不是通过间接地估计值函数来推导策略。通过选择不同的参数化策略函数,可以实现不同的策略表达形式,如高斯策略、二项式策略、混合策略等。它是一类基于梯度优化的策略搜索算法,用于直接优化策略函数,从而实现智能体的学习和决策过程。原创 2023-07-10 10:08:01 · 414 阅读 · 0 评论 -
强化学习|底层逻辑与本质 引导式学习
在MDP中,智能体以特定的状态开始,然后在每个时间步选择一个行动,接收来自环境的奖励和下一个状态。智能体的目标是学习一种策略,即在给定状态下选择最优行动,以最大化累积奖励。在强化学习中,策略网络和价值网络通常可以相互结合,形成混合算法,例如Actor-Critic算法,其中策略网络(Actor)用于执行动作选择,价值网络(Critic)用于评估行动的价值。强化学习的本质是一个智能体通过与环境的交互,通过尝试和错误的方式学习如何采取行动来最大化累积奖励。这位同学博客的图做得很好,可以进行参考,讲的真的很好。原创 2023-07-09 13:22:47 · 583 阅读 · 0 评论 -
IL、BC、IRL、GAIL、RL差点给我搞懵逼了,整理一下
/这个把IRL讲的比较大白话,相对好解释 ,讲的确实好。//这个妹子也讲的很不错。原创 2023-07-09 00:15:45 · 780 阅读 · 0 评论 -
百度paddle的强化学习教程笔记-DQN
On-policy与Off-policy强化学习中on-policy 与off-policy有什么区别?强化学习中on-policy 与off-policy有什么区别? - 知乎强化学习中on-policy 与off-policy有什么区别_百度知道on-policy在学习的过程中实际只存在一种策略,它用一种策略去做action的选取也用一种策略去做优化。所以Sarsa知道它下一步的动作有可能会跑到悬崖边去,所以它就会在优化它自己的策略的时候就会尽可能的离悬崖远一点。那这...原创 2021-12-20 08:48:37 · 889 阅读 · 0 评论 -
OpenAI Gym——用于研发和比较强化学习算法的工具包
网上已经很多的介绍了,我就不浪费大家时间了,老样子,整理出来。Gym提供了接近800个的测试环境,具体每个环境怎么用还得看官网,国内大部分网上都只是经典环境的使用比如Cartpole(倒立摆),CliffWalking(悬崖峭壁),每个环境的具体使用,官网还是做的不错的,有时间感兴趣的伙计可以去看看,目前个人感觉用不上太多的模拟环境会用那么几个经典的对做强化学习比较还是够了。GymA toolkit for developing and comparing r...原创 2021-12-17 22:36:41 · 592 阅读 · 0 评论 -
强化学习之Sarsa实现基于Parl框架
理论部分请看下方第二个参考链接视频很详细,也不长,代码来自百度高级工程师科老师,说话好听最重要的是讲的好,查了一下科老师背景,北京大学深圳学院(南燕,就职于百度的15级校友李科浇,估计27,28岁了),真的,真的,这个免费的公开课,超出我的预期了。项目结构Sarsa_FileFolder ->agent.py ->gridworld.py ->train.py科engineer在给毕业生的分享会的主要内容:第二位分享的是2015级信息工程学院校.原创 2021-12-17 22:15:34 · 843 阅读 · 0 评论 -
解决zsh: no matches found: gym[all]
想着gym的依赖包环境太多了,索性不如一次安装,pip install gym[all],结果报错。这个问题的主要原因是zsh不兼容的坑-zsh:no matches found - 简书,解决也是这样解决的,我给大家展示一下过程。1.回到home路径,cd ~2.vim ~/.zshrc3.我在最后一句添了一个setopt no_nomatch(先输入i,在粘贴复制进去哈,主要为了不会vim的小伙伴),然后按一下esc,在输入:,再键入wq保存退出来。4.sour...原创 2021-12-17 09:20:33 · 4111 阅读 · 2 评论