来自郭宪老师<<深入浅出强化学习>>
初始化函数__init__:
要定义好状态空间 动作空间 回报函数和状态转移概率
step函数:
输入是动作,输出是下一个时刻的动作、回报、是否终止和调试信息
对于调试信息,可以为空,但不能缺少,否则会报错,常用{}来代替
render函数:
用于渲染图像,根据需要自行设置(可选)
reset函数:
常常用随机的方法初始化机器人的状态
定义好这四个函数,就可以实现一个强化学习环境
来自郭宪老师<<深入浅出强化学习>>
初始化函数__init__:
要定义好状态空间 动作空间 回报函数和状态转移概率
step函数:
输入是动作,输出是下一个时刻的动作、回报、是否终止和调试信息
对于调试信息,可以为空,但不能缺少,否则会报错,常用{}来代替
render函数:
用于渲染图像,根据需要自行设置(可选)
reset函数:
常常用随机的方法初始化机器人的状态
定义好这四个函数,就可以实现一个强化学习环境