Supervised Learning:需要训练集,有正确答案。 所以有loss function(1)数据尽可能不相关(2)正确的label有判定标准
Reinforcement Learning:反馈比较慢,无直接的判定标准。
Diff between RL and Supervised Learning:
- 序列化的数据输入,不是一个个独立样本
- learner 是一个学习的过程,并不知道具体行为准确的对错,需要自己去尝试
- Trial and error 强化学习存在一个试错的过程(exploration and exploitation)
- 强化学习中,no supervisor,只有一个奖励信号,并且存在延迟
强化学习主要特征:
- Trial and error exploration
- 延迟奖励
- 连续的数据输入,涉及到了时间问题(Time 是关键问题,类似于监督学习中数据i.i.d让data不相关)
- 智能体(agent)的行为,会对之后产生的数据有影响,可以改变所处的环境
强化学习优势:
- 强化学习得到的模型,得到“超人类”的结果,(图片减少人的标定,更少的人类设定标签)
Deep Reinforcement Learning: Deep Learning + Reinforcement Learning
- end-to-end training :不需要手工设定特征;省去了 feature 设定评估