qpython 教程_极简Qlearning教程（附Python源码）

最新推荐文章于 2024-05-16 09:37:09 发布

一筐猪的头发丝

最新推荐文章于 2024-05-16 09:37:09 发布

阅读量1.8k

点赞数

文章标签： qpython 教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35752645/article/details/114467769

版权

极简Qlearning入门教程

在当前的机器学习中，主流方向为有监督学习、无监督学习以及强化学习，今天我想介绍的就是强化学习的一个小入门Qleaning算法。

回想我们小时候在妈妈的教育下进行学习，首先我们是什么都不会，但是在父母的教育下，慢慢地开始学习起来，比如看见猫，第一次见到不知道这是什么物种，于是妈妈告诉你这是猫，下次见到就知道了，这就是监督学习，当我们做出一个动作，立即得到反馈，而强化学习则不然，当我们做出动作的时候，却不会有立即的反馈，只能到结束才能知道效果，因此本人在学习的过程中，将网上的资料收集了一下，发现这篇文章是特别棒的http://mnemstudio.org/path-finding-q-learning-tutorial.htm

假设有这样的房间

这样看，我们可以将其进行建模：

这就是房间对应的图。我们首先将agent(机器人)处于任何一个位置，让他自己走动，直到走到5房间，表示成功。为了能够走出去，我们将每个节点之间设置一定的权重，能够直接到达5的边设置为100，其他不能的设置为0，这样网络的图为：

Qlearning中，最重要的就是“状态”和“动作”，状态表示处于图中的哪个节点，比如2节点，3节点等等，而动作则表示从一个节点到另一个节点的操作。

首先我们生成一个奖赏矩阵：

最低0.47元/天解锁文章

一筐猪的头发丝

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
qpython 教程_极简Qlearning教程（附Python源码）

极简Qlearning入门教程在当前的机器学习中，主流方向为有监督学习、无监督学习以及强化学习，今天我想介绍的就是强化学习的一个小入门Qleaning算法。回想我们小时候在妈妈的教育下进行学习，首先我们是什么都不会，但是在父母的教育下，慢慢地开始学习起来，比如看见猫，第一次见到不知道这是什么物种，于是妈妈告诉你这是猫，下次见到就知道了，这就是监督学习，当我们做出一个动作，立即得到反馈，而强化学习则...
复制链接

扫一扫

一筐猪的头发丝 CSDN认证博客专家 CSDN认证企业博客

码龄5年

1027: 原创

-: 周排名

207万+: 总排名

66万+: 访问

: 等级

157: 积分

67: 粉丝

100: 获赞

20: 评论

604: 收藏

私信

关注

热门文章

最新评论

使用python写一个计算机与三菱PLC通讯的代码
Dark丶随心: 假的，跑不通，没有PLC属性
js身份证正则验证
weixin_57052815: 验证后再发，把正确的都过滤掉了
可以用python做一段旋转爱心的可视化图像吗
2301_80001750: 我打出来显示n是错的
c语言udp传输协议如何发送结构体
gaopan0622: 师兄，有点问题，想请教您呢。我使用cubemx配置lwip并ping通后，使用udp的socket接口和raw接口循环发送一结构体数据，接收端只有第一次是接收正确的，之后都是接受的0，您遇到过这个问题吗？如果没有的话，是不是我哪里配置没对，能请教下您吗？可以有偿请教呢
oracle查询某个表的字段和字段类型以及备注
什JMY: 哈哈哈用到了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。