强化学习:Reinforcement Learning
当前的机器学习算法可以分为三种:有监督学习、无监督学习和强化学习
有监督学习是从有标签的训练集中学习,每个样本的特征可视为对状态的描述,标签可视为执行正确的action,但是有监督学习不能学习交互的情景,只能从experience中学习,而experience的action并不一定是最优的。
无监督学习是从无标签的训练集中发现隐藏的结构
强化学习是在获得样本之后更新模型,利用当前的模型指导下...
原创
2018-10-16 16:23:04 ·
262 阅读 ·
0 评论