python
文章平均质量分 91
PilviMannis
这个作者很懒,什么都没留下…
展开
-
IMPALA(Importance Weighted Actor-Learner Architectures)
IMPALA(Importance Weighted Actor-Learner Architectures)策略梯度方法已成功地应用于许多复杂的强化学习问题。然而,政策梯度法存在方差大、收敛速度慢、探索效率低等问题。在这项工作中,我们引入了一个最大熵策略优化框架,它明确地鼓励参数探索,并表明这个框架可以简化为一个贝叶斯推理问题。在此基础上,我们提出了一种新的Stein变分策略梯度方法(SVPG),该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样化但表现良好的策略。SVPG对于初始化是健壮的,原创 2021-02-24 15:55:48 · 561 阅读 · 1 评论 -
DataParallel layers (multi-GPU, distributed) torch分布式函数
DataParallel layers (multi-GPU, distributed)DataParallelclass torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)在模块级实现数据并行。此容器通过在批处理维度中分块(其他对象将在每个设备上复制一次),在指定的设备上分割输入,从而并行化给定模块的应用程序。在正向传递过程中,模块被复制到每个设备上,每个副本处理输入的一部分。在向后传递过程中,每个副原创 2021-02-24 15:35:15 · 399 阅读 · 0 评论 -
GYM环境解读
GYM调用GYM环境:import gym通过gym.make(env_name)对环境进行初始化进入gym/envs/registraion.py,调用make()–>EnvRegistry.make(),通过函数spec(path)来对环境id进行匹配,path = env_name = id,调用match = env_id_re.search(id)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ye3RCaFM-1592555650345)(C:\U原创 2020-06-19 16:35:30 · 7006 阅读 · 6 评论 -
解决keras模型保存问题(避免系统崩溃,模型训练无效),并且可以解决训练越来越慢的问题
首先贴出来训练部分的代码: def train(self, train_generator, validation_generator, pre_model_path=None): ''' :param train_generator: 训练集 :param validation_generator: 测试集 :param...原创 2020-04-08 19:19:17 · 2355 阅读 · 3 评论 -
spark python安装配置 (初学)
参考博客 https://blog.csdn.net/tyhj_sf/article/details/81907051需要:jdk10.0、spark2.3.1、Hadoop2.7.7(与spark对应的版本) JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk10-downloads-4416644....原创 2018-09-04 14:04:22 · 3729 阅读 · 2 评论 -
tensorflow GPU版安装(win10系统,anaconda3.4.2,python3.5, GTX1050,CUDA9.0
tensorflow GPU版安装(win10系统,anaconda3.4.2,python3.5, CUDA9.0.176_win10,cudnn-9.0-windows10-x64-v7,GTX1050 Ti)参考博客 https://blog.csdn.net/gyp2448565528/article/details/79451212安装完anaconda,配置环境:系统变量...原创 2018-09-20 19:44:07 · 935 阅读 · 0 评论 -
Pendulum_DDPG代码走读之pendulum.py
Pendulum_DDPG.py中引入:# 初始化环境状态state = env.reset()# 获取当前时刻的状态state_next, reward, terminal, _ = env.step(action)# 其中env.step(action)是进入 time_limit.py的step函数 再进入 pendulum.py的step函数其中time_limit....原创 2019-01-20 11:24:11 · 1433 阅读 · 0 评论 -
MacOS搭建openai环境
首先是安装Homebrew:https://brew.sh/index_zh-cn输入指令:/usr/bin/ruby -e “$(curl -fsSLhttps://raw.githubusercontent.com/Homebrew/install/master/install)”需要注意的是password输入的是开机密码不是id密码。完成之后输入brew -v来查看是否安装...原创 2019-04-27 09:44:50 · 2378 阅读 · 0 评论 -
python list 取部分值
代码解读:list1 = [1,2,3,4,5,6,7,8,9,0]若是想取前几项,如:前5项 该列表表示的是正向索引(index)0 1 2 3 4 5 6 7 8 9 ...原创 2019-05-30 17:31:03 · 34033 阅读 · 0 评论