强化学习
文章平均质量分 54
目前正在筹备计划、摸索中,拥抱变换,接受改变。
思考实践
以身作则,静待花开。长期主义,宇宙主义,价值导向。多角度分析问题,积极解决问题,不要停下来。THU-phd,CAS-master.
展开
-
wzx-jmw:NFL合理,但可能被颠覆。2023-2024
As well known by all, NFL is ... 没有免费的午餐理论 No Free Lunch Theorem_免费午餐理论-CSDN博客However, if we...原创 2023-10-03 01:45:17 · 320 阅读 · 0 评论 -
策略梯度(Policy Gradient)的公式理解与其地位
它通过直接优化策略函数,适应了连续动作空间和高维状态空间的问题,同时能够支持多样化的策略表达形式和直接利用强化信号进行优化,为解决复杂的强化学习任务提供了有效的方法和工具。直接优化策略:与传统的值函数方法(如Q-learning)不同,策略梯度方法直接优化策略函数,而不是通过间接地估计值函数来推导策略。通过选择不同的参数化策略函数,可以实现不同的策略表达形式,如高斯策略、二项式策略、混合策略等。它是一类基于梯度优化的策略搜索算法,用于直接优化策略函数,从而实现智能体的学习和决策过程。原创 2023-07-10 10:08:01 · 336 阅读 · 0 评论 -
强化学习|底层逻辑与本质 引导式学习
在MDP中,智能体以特定的状态开始,然后在每个时间步选择一个行动,接收来自环境的奖励和下一个状态。智能体的目标是学习一种策略,即在给定状态下选择最优行动,以最大化累积奖励。在强化学习中,策略网络和价值网络通常可以相互结合,形成混合算法,例如Actor-Critic算法,其中策略网络(Actor)用于执行动作选择,价值网络(Critic)用于评估行动的价值。强化学习的本质是一个智能体通过与环境的交互,通过尝试和错误的方式学习如何采取行动来最大化累积奖励。这位同学博客的图做得很好,可以进行参考,讲的真的很好。原创 2023-07-09 13:22:47 · 388 阅读 · 0 评论 -
IL、BC、IRL、GAIL、RL差点给我搞懵逼了,整理一下
/这个把IRL讲的比较大白话,相对好解释 ,讲的确实好。//这个妹子也讲的很不错。原创 2023-07-09 00:15:45 · 499 阅读 · 0 评论 -
百度paddle的强化学习教程笔记-DQN
On-policy与Off-policy强化学习中on-policy 与off-policy有什么区别?强化学习中on-policy 与off-policy有什么区别? - 知乎强化学习中on-policy 与off-policy有什么区别_百度知道on-policy在学习的过程中实际只存在一种策略,它用一种策略去做action的选取也用一种策略去做优化。所以Sarsa知道它下一步的动作有可能会跑到悬崖边去,所以它就会在优化它自己的策略的时候就会尽可能的离悬崖远一点。那这...原创 2021-12-20 08:48:37 · 827 阅读 · 0 评论 -
OpenAI Gym——用于研发和比较强化学习算法的工具包
网上已经很多的介绍了,我就不浪费大家时间了,老样子,整理出来。Gym提供了接近800个的测试环境,具体每个环境怎么用还得看官网,国内大部分网上都只是经典环境的使用比如Cartpole(倒立摆),CliffWalking(悬崖峭壁),每个环境的具体使用,官网还是做的不错的,有时间感兴趣的伙计可以去看看,目前个人感觉用不上太多的模拟环境会用那么几个经典的对做强化学习比较还是够了。GymA toolkit for developing and comparing r...原创 2021-12-17 22:36:41 · 505 阅读 · 0 评论 -
强化学习之Sarsa实现基于Parl框架
理论部分请看下方第二个参考链接视频很详细,也不长,代码来自百度高级工程师科老师,说话好听最重要的是讲的好,查了一下科老师背景,北京大学深圳学院(南燕,就职于百度的15级校友李科浇,估计27,28岁了),真的,真的,这个免费的公开课,超出我的预期了。项目结构Sarsa_FileFolder ->agent.py ->gridworld.py ->train.py科engineer在给毕业生的分享会的主要内容:第二位分享的是2015级信息工程学院校.原创 2021-12-17 22:15:34 · 771 阅读 · 0 评论 -
解决zsh: no matches found: gym[all]
想着gym的依赖包环境太多了,索性不如一次安装,pip install gym[all],结果报错。这个问题的主要原因是zsh不兼容的坑-zsh:no matches found - 简书,解决也是这样解决的,我给大家展示一下过程。1.回到home路径,cd ~2.vim ~/.zshrc3.我在最后一句添了一个setopt no_nomatch(先输入i,在粘贴复制进去哈,主要为了不会vim的小伙伴),然后按一下esc,在输入:,再键入wq保存退出来。4.sour...原创 2021-12-17 09:20:33 · 3858 阅读 · 2 评论