马尔可夫过程MDP是一种建模方法,很多问题都在用马尔可夫建模 强化学习其实是一种模式套路 目标Q网络和预测Q网络→目标Q网络中有一步是真实的,其余是预测的,预测Q网络中全部是预测的,隔一段时间用预测Q网络的参数去更新目标Q网络的参数 只有连续的函数是可导的,离散的函数不可导 强化学习中的环境就等同于深度学习或者数据挖掘课题的“数据”,强化学习通过与环境交互来产生数据,所以对环境的认知直接关系到最终结果的好坏,在很多强化学习的研究和竞赛里往往对环境的trick比算法的改进效果更为明显。