- 博客(8)
- 收藏
- 关注
原创 强化学习算法分类总结
知识总结:https://www.jianshu.com/p/a04a8c7bee98A2C,A3C,PPO1,PPO2 :策略函数的优化(πθ(a|s))Q-learing : 动作值函数的优化(Qθ(s,a))DDPG,SAC :结合策略函数和动作值函数(πθ(a|s)+Qθ(s...
2019-10-31 21:31:59 969
原创 on-policy和off-policy区别
Policy Optimization 通常是on-policy的,也就是每次更新策略采用最新策略产生的数据。Q-Learning 通常是Off-Policy的,这就意味着训练的数据可以是训练期间任意时刻的数据。...
2019-10-31 20:58:17 922
转载 linux 打开文件数 too many open files 解决方法
too many open files出现这句提示的原因是程序打开的文件/socket连接数量超过系统设定值。查看每个用户最大允许打开文件数量ulimit -afdipzone@ubuntu:~$ ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unli...
2019-10-16 20:30:44 183
转载 使用imp.load_source()
python根据路径导入模块的两种方法:sys.path.append(sys.path.insert)和imp.load_source假设在路径/home/Code/Python3/下有一个文件test.py, 内容如下: def myadd(x,y): return x+y方法一sys.path.append import sys sys.path.appe...
2019-10-16 10:43:54 946
原创 gazebo 启动gzclient时出现错误[Err] [InsertModelWidget.cc:302] Missing model.config for model
在Gazebo启动gzclient 时,出现如下的错误:解决办法:(问题出现在目录.gazebo/model/gui.ini文件)原始的.gazebo/model/gui.ini内容如下:修改为:先export GAZEBO_MASTER_URI=http://localhost:端口号gzclient 启动...
2019-10-14 15:29:39 8255 1
转载 ubuntu 查看端口并关闭
Ubuntu查看端口使用情况,使用netstat命令:查看已经连接的服务端口(ESTABLISHED)netstat -a查看所有的服务端口(LISTEN,ESTABLISHED)netstat -ap查看指定端口,可以结合grep命令:netstat -ap | grep 8080也可以使用lsof命令:lsof -i:8888若要关闭使用这个端口的程序...
2019-10-12 14:10:17 1154
原创 强化学习State和Observation的区别
State和Observation区别:State是Environment的私有表达,我们往往不知道不会直接到的。在 MDP 中,当前状态State(Markov state)包含了所有历史信息,即将来只和现在有关,与过去无关,因为现在状态包含了所有历史信息。举个例子,在一个遵循牛顿第二定律的世界里,我们随意抛出一个小球,某一时刻t知道了小球的速度和加速度,那么t之后的小球的位置都可以...
2019-10-11 20:16:05 5996 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人