一、什么是强化学习
监督学习:有数据和数据对应的标签,根据这些数据和标签进行学习,从而判断出新的数据属于哪一类标签。
强化学习:比监督学习更进一步,一开始就没有数据和对应的标签。通过在环境中尝试获取数据和标签,然后再学习哪些数据对应哪些标签。通过学习到的规律,尽可能选择能带来高分的行为。比如Alpha go,让机器不断更新自己的行为准则,学会下围棋,从而得到高分。
我感觉监督学习更适合分类,而强化学习帮助你做一个可以取得高分的决定,也就是指导你怎么做。那么强化学习和深度学习有什么区别呢?他们都属于机器学习的分支,强化学习就像人的大脑,帮你做决策,而深度学习是机器学习的一个模型:深度神经网络(DNN),主要用于图像处理和自然语言处理。
二、强化学习的方法
(1)Model-free RL 和Model-based RL
Model-free RL:不理解环境是什么,环境给了什么就是什么,按部就班。
Model-based RL:理解环境是什么,也就是学会用一个模型来为环境建模。建模也就是想象力。
(2)Policy-based RL基于概率和Value-based RL基于价值
Policy-based RL:输出的是不同动作的概率,但每种动作都可能被选中。