SRTTTTT-CSDN博客

原创 dataframe multi index

iloc只能用来索引行号，无法使用multiindex。loc 所在的圆括号对应着multiindex。3输出所在行的mutilindex。1.mutliindex 查看。2.mutliindex 索引。

2023-08-17 18:39:39 99 1

原创关于多任务的decision transformer

修改好代码实现GPT在多个数据集的训练。

2023-02-27 15:57:15 216

我们可以看到，无论是Q-learning还是DQN，我们发现他们的本质都是value-based 的强化学习方法，利用value iteration 进行优化。在这里，正确的网络指的是，input是一个observation或者说是state，可以得到一个正确的。一定程度上，时间差分算法可以视为Monte Carlo算法的一种发展，Monte Carlo 算法的核心是多次采样求平均的思路，对累计收获的奖励值求平均，这里的指的是，agent 采集自己的轨迹的历史数据，然后进行minibatch的训练。

2023-02-27 15:56:33 117

原创 D4RL的踩坑记录

D4RL envs

2022-10-17 11:10:19 2305 1

原创关于D4RL的agent包的tf.contrib兼容性问题

tensorflow tf.contrib

2022-09-05 13:45:13 851

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_51003458的博客

原创 dataframe multi index

原创 gym踩坑日志

原创关于多任务的decision transformer

原创 playing atari with DQN

原创 D4RL的踩坑记录

原创关于D4RL的agent包的tf.contrib兼容性问题

空空如也

空空如也

原创 dataframe multi index

原创 gym踩坑日志

原创 关于多任务的decision transformer

原创 playing atari with DQN

原创 D4RL的踩坑记录

原创 关于D4RL的agent包的tf.contrib兼容性问题

空空如也

空空如也

原创关于多任务的decision transformer

原创关于D4RL的agent包的tf.contrib兼容性问题