莫烦强化学习笔记整理 (一)RL简介
(一)RL简介)
1、什么是强化学习
(1)简介
强化学习是一类算法,让计算机在不断的尝试中更新自己的行为准则,最后找到规律学会达到目的的方法,这就是一个完整的强化学习过程。
在强化学习中,一种行为的分数是十分重要的,所以强化学习具有分数导向性。这种分数导向性可以类比我们在监督学习中的正确标签。
(2)RL、监督学习、无监督学习、半监督学习的对比
监督学习(Supervised learning):
监督学习即具有特征(feature)和标签(label)的,即使数据是没有标签的,也可以通过学习特征和标签之间的关系,判断出标签——分类。
简言之:提供数据,预测标签。比如对动物猫和狗的图片进行预测,预测label为cat或者dog。
无监督学习(Unsupervised learning):
无监督学习没有标签,只有特征,在没有标签的训练数据集中,通过数据之间的内在联系和相似性将他们分成若干类——聚类。根据数据本身的特性,从数据中根据某种度量学习出一些特性。
简言之:给出数据,寻找隐藏的关系。
半监督学习(Semi-Supervised learning):
半监督学习使用的数据,一部分是标记过的&#