gzz2200-CSDN博客

翻译 Meta Reinforcement Learning

转自Meta Reinforcement LearningMeta-RL是针对强化学习任务的元学习。在对任务分布进行训练后，agent能够通过开发一种新的具有内部活动动态的RL算法解决新任务。这篇文章从meta-RL的起源开始，然后深入研究meta-RL的三个关键组成部分。在之前关于元学习的文章中，这个问题主要是在 few-shot 分类的背景下定义的。在这里，我想探讨更多的案例，当我们试图通过开发一个 agent 来“元学习”强化学习(RL)任务，可以快速有效地解决看不见的任务。

2022-01-14 14:55:43 1148 1

原创 Tensorflow与Pytorch的函数转换

Tensorflow与Pytorch的函数转换1）http://www.xyu.ink/1785.html2）https://www.cnblogs.com/wanghui-garcia/p/10775859.html3）https://www.cnpython.com/qa/353210仅供学习记录，如侵必删

2021-09-30 10:41:24 330

原创 ubuntu18安装vizdoom时出错

sudo apt-get install cmake libboost-all-dev libgtk2.0-dev libsdl2-dev python-numpygit clone https://github.com/shakenes/vizdoomgym.gitcd vizdoomgympip install -e .

2021-05-25 21:12:02 221

原创 ERROR: cannot launch node of type [turtlebot3_dqn/turtlebot3_dqn_stage_1]: C

首先查看是否有turtlebot3_dqn包，发现是有的rospack find turtlebot3_dqn然后再查看节点文件，把属性改为可执行文件。大功告成！

2021-05-12 14:58:56 870 1

原创 DQN学习笔记

强化学习是试错并不断迭代的过程，每次迭代：给定一个策略求值函数，并更新策略。DQN使用神经网络来近似值函数，即神经网络的输入是state,输出是Q(s,a)。通过神经网络计算出值函数后，DQN使用ϵ−greedy策略来输出action：首先环境会给出一个obs，智能体根据值函数网络得到关于这个obs的所有Q(s,a)，然后利用ϵ−greedy选择action并做出决策，环境接收到此action后会给出一个奖励Rew及下一个obs。这是一个step。此时我们根据Rew去更新值函数网络的参数。接着进入下一个st

2021-04-26 16:51:53 331

原创安装ROS执行rosdep update出现ERROR: unable to process source [https://raw.githubusercontent.com/ros/...

安装ROS执行rosdep update出现ERROR: unable to process source [https://raw.githubusercontent.com/ros/…#成功秘诀：百分之九十的运气加百分之十的网络1）请用手机热点2）sudo gedit /etc/hosts3）文末添加151.101.76.133 raw.githubusercontent.com4）保存退出，执行rosdep update即可5）多试几次，祝君好运另外如果不好使，可以通过以下步骤查找新的

2021-02-24 20:19:16 4779 5