强化学习与动态规划、博弈论、有监督学习、无监督学习和进化算法的差异
强化学习与动态规划、博弈论、有监督学习、无监督学习和进化算法的差异强化学习的特点强化学习 vs. 动态规划强化学习 vs. 博弈论强化学习 vs. 有监督学习强化学习 vs. 无监督学习强化学习 vs. 进化算法强化学习的特点强化学习中必备的三个要素是策略、收益信号和价值函数。策略定义了智能体Agent在特定时间的行为方式(action);收益信号定义了强化学习问题中的目标,主要根据环境(Environment)向智能体Agent返回的收益(reward)对策略进行调整;不同于表示即时收益的收
原创
2020-08-16 20:14:34 ·
2347 阅读 ·
0 评论