20191220 强化学习中对连续动作的定义究竟是怎样?这个问题困扰我很久,我觉得有两层理解: 1、动作的选择范围是连续区间,当前的动作与后续的动作之间并无关联,能够直接进行离散跳跃式的选择; 2、动作的选择范围是连续区间,前面的动作与后面的动作之间是连续过渡,而不能离散跳跃。 到底是哪个咯? 20200310 今天觉得这个问题不重要了…未来拿着代码将动作结果print一下应该就可以了吧~