西瓜书16-强化学习

最新推荐文章于 2023-04-06 08:38:07 发布

weixin_41872340

最新推荐文章于 2023-04-06 08:38:07 发布

阅读量144

点赞数

分类专栏：西瓜书

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41872340/article/details/103970505

版权

西瓜书专栏收录该内容

16 篇文章 1 订阅

订阅专栏

16.1 任务与奖赏

我们考虑如何种西瓜，经过浇水除草施肥，经过一段时间后才能收获西瓜，通常要收获后，我们才知道种出的瓜好不好，在种瓜过程中我们执行某个操作（如施肥）时，并不能立即获得最终奖赏（好瓜），仅能得到一个当前反馈（瓜苗更加健壮），我们需要多次种瓜，在种瓜过程中不断摸索，才能总结出较好的种瓜策略，这个过程抽象出来，就是“强化学习”
在这里插入图片描述
强化学习任务通常用马尔可夫决策过程来描述：机器处于环境E中，状态空间为X，其中每个状态（x属于X）是机器感知到的环境的描述，如在种瓜任务上就是对当前瓜苗长势的描述。机器能采取的动作构成了动作空间A，如种瓜过程中有浇水、施肥、使用不同的农药等多种可供选择的动作；若某个动作a作用在当前状态x上，则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态，如瓜苗状态为缺水，若选择动作浇水，则瓜苗长势会发生变化…不想写了。

weixin_41872340

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书16-强化学习

16.1 任务与奖赏我们考虑如何种西瓜，经过浇水除草施肥，经过一段时间后才能收获西瓜，通常要收获后，我们才知道种出的瓜好不好，在种瓜过程中我们执行某个操作（如施肥）时，并不能立即获得最终奖赏（好瓜），仅能得到一个当前反馈（瓜苗更加健壮），我们需要多次种瓜，在种瓜过程中不断摸索，才能总结出较好的种瓜策略，这个过程抽象出来，就是“强化学习”强化学习任务通常用马尔可夫决策过程来描述：机器处于环境E...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。