在使用open AI 的gym平台训练强化学习算法的时候(环境为CartPole-v1),因为以下代码报错:
ValueError: expected sequence of length 4 at dim 1 (got 0)
原因是 agent.choose_action(s) 中的s需要的是一个维度为1,长度为4的序列。而输入的s是如下:(array([ 0.00118216, 0.04504637, -0.03558404, 0.04486495], dtype=float32), {}) 。
修改代码如下:
分析:通过索引 [0] 使得s成为一个维度为1,长度为4的序列([ 0.00118216, 0.04504637, -0.03558404, 0.04486495]),即可满足agent.choose_action()条件,成功解决报错。