目标是让自治有感agent学习到达目标的最优动作。通过延迟反馈得到对当前行为的评价。目标函数是当前环境到最佳行为的映射。
其实就是高端版的动态规划+贪心算法。
即是记录每个状态的收益(未来各步的收益以一定比例削弱后进行加和),作为当前的状态得分。
每次选择得分最高的状态进行执行。
目标是让自治有感agent学习到达目标的最优动作。通过延迟反馈得到对当前行为的评价。目标函数是当前环境到最佳行为的映射。
其实就是高端版的动态规划+贪心算法。
即是记录每个状态的收益(未来各步的收益以一定比例削弱后进行加和),作为当前的状态得分。
每次选择得分最高的状态进行执行。