强化学习(reinforment learning)
基本介绍
强化学习是机器学习的一个分支,是解决序列决策问题 ,具体而言就是agent(agent理解为计算机或者自己的算法找的一个去与环境交互的代理人)基于观察的环境选择合适的行动来获得最优化的收益。强化学习与人类学习过程极其类似,很好理解。人的学习过程,比如说学习骑自行车,首先,你骑上去,发现平衡不好控制,于是你不断的尝试,一开始也许在自行车往左倾,你也往左,然后你发现车倒了,于是你下次自行车左倾时你尽量不往左。而且发现往车左倾的时候,人往右倾,车子坚持了一下。于是你学到了一些东西,慢慢的一左一右,摇摇晃晃,慢慢平稳最终学会了骑车。从这个例子可以参看Openai的gym的CartPole-v0这个例子。也希望通过后续的学习去完成这一例子。
一根杆子由一个推车支撑着,沿着轨道无摩擦运动,通过向推车施加向左向右得力来维持的直立,每维持一个时间步长就提供+1的奖励。当杆与垂直方向相差超过15度、达到200分或者从中心移动超过2.4个单位的时候,结束一个episode。openai将这一问题视为解决是连续100次实验获得195.0以上的平均奖励。