【莫烦强化学习】视频笔记（一）1. 什么是强化学习？

最新推荐文章于 2022-07-01 10:20:41 发布

你的宣妹

最新推荐文章于 2022-07-01 10:20:41 发布

阅读量394

点赞数 1

分类专栏：强化学习笔记文章标签：人工智能强化学习经验分享

本文链接：https://blog.csdn.net/cherreggy/article/details/107118373

版权

12 篇文章 11 订阅

订阅专栏

我们人类在进行学习时，总是从一开始什么都不知道，经过不断的尝试与纠错，最终获得正确解决问题方法的过程，这就可以看作一个强化学习过程。
实际，强化学习的例子很多：

👉这些都是让计算机不断地尝试并学习行为准则，以赢得围棋棋局或者在打砖块游戏中得到高分。

想象此刻有一个虚拟的老师正在教计算机如何学习，但是他只能够为你的行为打分。那么如何通过这些分数来学习呢？很简单，通过记住高分、低分分别对应的行为，在学习中避免低分行为，在行为中总结经验。此特性可以称为分数导向性。

更进一步的，在监督学习中，我们需要得到数据和标签，但是一开始并没有数据和标签，是通过一次次与环境交互产生行为，并获得对应的标签，再学习哪些数据能够对应上哪些标签，通过学习这种规律，来获取能够获得高分的行为。如下面这个例子：
强化学习过程来自莫烦Python

实际上，一开始是一张空白的桌子（很像Windows纸牌游戏的桌子😅），只有数据和标签两个部分。我们的目的是尽量做一些开心的表情，以获得更高的分数。
我们不断做表情（假设我们不知道什么表情是开心的（高分）或伤心的（低分）），“虚拟老师”会告诉我们你的表情是低分还是高分（也就是标签），这样我们就会获得很多数据和标签啦。
我们通过大量做表情得到标签并从中获取一定的规律，你经过惨痛教训后，会发现做🙂就会高分，做😟就会低分。
你为了获得高分，就会一直做🙂。

强化学习的算法有很多种，例如：

关注