离散空间表示有限的动作和状态
我们可以将任何状态和动作函数表示为字典或者查询表,字典中key为表示的状态,value为值;查询表每行对应为状态,每列对应为动作
连续空间是一定范围内的值,通常是实数
在值迭代中for循环遍历每个状态并更新相应的估值,这是在连续的状态空间中不可能的,loop将不会停止;
在Q-learning中,我们对状态S‘的所有潜在动作执行max运算,如果动作是连续的,这将不可执行
很显然我们需要改变表示法或者算法来处理连续空间,可以使用离散化和函数逼近
深度强化学习&连续空间5.1 | 离散空间与连续空间
最新推荐文章于 2023-08-23 15:25:25 发布