EMMMM拖了好久又回来啦。还是得整理完的。FLAG不能倒
Policy Gradient
policy gradient(策略梯度)算法大概思路就是每部操作有奖励,根据贪心算法选取最优解,(有随机函数时也会有一部分可能采取了一个局部非最优解以达到全局结果的更优化,即跳出局部最值)
另外,函数用episode,一批一批的处理也会提升速度。
严格的数学证明在这里就不写了。(我不是数学专业,咱也不太懂,咱只知道能证)
一个简单的PG算法样例:
参数有:状态,动作量,gamma,学习率(学到后面的会遗忘前面的,这一点模拟人类啦,EMMM,其实这个玩意是可以减少噪声对训练的影响的,因为学到的不一定都是对的。当数据噪声大的时候忘得快未必不是好事),奖励表
例子中用的神经网络层数以及参数(神经元个数之类的)都能自己调,就是调参。