强化学习 Basic Concepts-Today2

最新推荐文章于 2024-07-12 19:06:42 发布

赵荏苒

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量357

点赞数 15

分类专栏：强化学习文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52094641/article/details/140052824

版权

强化学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

如何去定义强化学习的结果是好还是坏呢?如果是我们学习高数，可以用成绩来判断，那么强化学习呢?引入以下概念：

①state：状态，就是我们所观察到的东西，如五子棋在棋盘的位置

②action：行动，即五子棋的移动，即可以前后左右移动

③state transition：即采用一个行动，五子棋就从一个状态到另一个状态

④policy：目标在一个状态下做出的行动，就是在一个位置下是怎样走可以赢得比赛所对应行走方向

⑤reward：即从一个state选择action所对应的奖励，如果走到禁止forbidden区域，则reward=-1

⑥trajectory：state-action-reward chain，即三者的结合路线

⑦discounted return(可以评估policy的好坏)：设置变量 $\gamma$ 为0到1之间的数字，防止五子棋走到终点之后仍移动，使整个学习过程是收敛的即

$discounted return=\gamma *reward1+\gamma *reward2+\gamma *reward3+..........$

当 $\gamma$ 趋于0时，则函数结果着眼于最近的reward，反之趋于1时，则趋于较远的reward

Markov decission process:

分为三个部分：

（1）sets：state 、action 、 reward

（2）probablily distrbuation：state transition probability and reward probablity

（3）policy

以上为学习赵老师的第二节课，个人认为先搞懂概念，运用到五子棋或者阿尔法狗或者游戏当中带入基本概念更容易，加油加油。

关注

15
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习 Basic Concepts-Today2

⑤reward：即从一个state选择action所对应的奖励，如果走到禁止forbidden区域，则reward=-1。④policy：目标在一个状态下做出的行动，就是在一个位置下是怎样走可以赢得比赛所对应行走方向。趋于0时，则函数结果着眼于最近的reward，反之趋于1时，则趋于较远的reward。为0到1之间的数字，防止五子棋走到终点之后仍移动，使整个学习过程是收敛的即。①state：状态，就是我们所观察到的东西，如五子棋在棋盘的位置。②action：行动，即五子棋的移动，即可以前后左右移动。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。