DRL
文章平均质量分 51
ThreeS_tones
这个作者很懒,什么都没留下…
展开
-
Python:将数组从一个范围等效到另一个范围
的所有元素从[-1,1]的范围等效转换到[-10000,10000]的范围。这样做可以保证数据的最大值和最小值分别映射到目标范围的最大值和最小值。的方法,它把数据从一个范围转换到另一个范围。的元素经过这种线性转换处理后的结果。x_iter的取值范围为。这段代码的目的是将矩阵。这是一种线性转换,它。这个公式进行的变换是。原创 2024-04-29 23:33:41 · 279 阅读 · 0 评论 -
强化学习实践0
gym是目前强化学习最常用的工具之一,一直在迭代升级。gymnasium与gym之间的主要不同在于reset和step的返回参数数目发生了变化,具体变化见版本变化。有很多版本兼容问题,gym0.26.0和之后的版本对之前的代码不兼容。所以可以安装0.25.2。seed()函数在新版本已经被删除了。在新版本中,seed应该在reset()函数调用时指定。gym目前并不支持python3.11版本,所以在台式上就用gymnasium吧。新版本的env_step()的返回值由4个变为5个了。原创 2024-04-13 21:21:33 · 369 阅读 · 0 评论 -
强化学习应用——倒立摆
【代码】强化学习应用——倒立摆。原创 2024-03-04 11:24:40 · 340 阅读 · 0 评论 -
使用强化学习进行神经网络结构搜索的代码以及修改
使用强化学习进行神经网络结构搜索的代码以及修改原创 2024-01-24 22:41:46 · 487 阅读 · 0 评论 -
复现NAS with RL时pytorch的相关问题
传播时不断累积,这往往不是我们希望看到的。为了确保正确的计算,我们需要在每次进行权重更新之前,用。一旦使用backward()计算出梯度,就可以调用该函数。是PyTorch中的一个操作,它用于清零所有被优化变量(通常是模型的参数)的梯度。这意味着,每次计算梯度,新的梯度值会被加上旧的梯度值。,得到的梯度值是累积的结果,这在大多数优化场景中是不正确的。在PyTorch中,当你计算某个张量的梯度时(比如通过调用。如果在反向传播前不将梯度清零,那么梯度值将会在每次。后,每次计算后得到的是当前情况下的准确梯度。原创 2024-01-23 22:08:05 · 533 阅读 · 0 评论 -
events.out.tfevents文件如何打开
打开终端,在项目环境中使用如下代码:原创 2024-01-22 17:18:55 · 1851 阅读 · 0 评论 -
RL中用到的pandas的库
纯整数基于位置的索引,用于按位置进行选择。原创 2024-01-20 20:50:48 · 359 阅读 · 0 评论 -
解决“DataFrame object has no attribute append“问题
2.可以使用 “pandas.concat()” 方法代替“dataframe.append()pandas2.0以后的版本舍弃了原本的append操作。1.将append改为_append。原创 2024-01-20 16:45:33 · 739 阅读 · 1 评论 -
DRL入门
状态和观察(states and observations)动作空间(action spaces)策略(policies)行动轨迹(trajectories)不同的回报公式(formulations of return)强化学习优化问题(the RL optimization problem)值函数(value functions)2. 算法分类分类方法:1、免模型学习和有模型学习(理不理解所处的环境)Model-Based:多了为现实世界建模的过程,多了一个虚拟环境、可通过想象。原创 2024-01-10 10:45:51 · 1163 阅读 · 0 评论