自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 dataframe multi index

iloc只能用来索引行号,无法使用multiindex。loc 所在的圆括号对应着multiindex。3输出所在行的mutilindex。1.mutliindex 查看。2.mutliindex 索引。

2023-08-17 18:39:39 90 1

原创 gym踩坑日志

gym envs

2023-03-11 18:30:54 529

原创 关于多任务的decision transformer

修改好代码实现GPT在多个数据集的训练。

2023-02-27 15:57:15 206

原创 playing atari with DQN

我们可以看到,无论是Q-learning还是DQN,我们发现他们的本质都是value-based 的强化学习方法,利用value iteration 进行优化。在这里,正确的网络指的是,input是一个observation或者说是state,可以得到一个正确的。一定程度上,时间差分算法可以视为Monte Carlo算法的一种发展,Monte Carlo 算法的核心是多次采样求平均的思路,对累计收获的奖励值求平均,这里的指的是,agent 采集自己的轨迹的历史数据,然后进行minibatch的训练。

2023-02-27 15:56:33 113

原创 D4RL的踩坑记录

D4RL envs

2022-10-17 11:10:19 2238 1

原创 关于D4RL的agent包的tf.contrib兼容性问题

tensorflow tf.contrib

2022-09-05 13:45:13 826

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除