0基础入门强化学习，非程序也能看得懂|Qlearning

香菜+

已于 2022-12-28 11:16:32 修改

阅读量2.1k

点赞数 5

分类专栏： AI深度学习文章标签：算法神经网络 python java

于 2020-05-22 07:15:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/perfect2011/article/details/106271882

版权

AI深度学习专栏收录该内容

19 篇文章 18 订阅 ¥99.90 ¥299.90

订阅专栏

这篇博客介绍了Qlearning，一种强化学习的基础算法。通过训练小狗如何正确上厕所的例子，解释了强化学习的概念，即通过奖励来强化行为记忆。Qlearning通过动态规划和表格储存历史经验，以找到最佳行动策略。博主还给出了Qlearning的算法公式，并概述了其实现步骤，包括定义状态、行为、奖励和更新经验。虽然没有给出具体代码，但强调了理解算法逻辑的重要性，鼓励读者自行探索或交流。

摘要由CSDN通过智能技术生成

1. 引言

这是这个系列的第一篇，为什么会突然写这么一篇？这是因为公司最近搞了一个拳皇97 AI 大赛，各个程序摩拳擦掌，对于我来说有点难，不会玩，不懂客户端，试着写了下发现很难发出招式。本想用机器学习解决问题，奈何在公司网络限制，搞了两天，又由于还有正经工作，断断续续的，环境搭建不起来，简直是走一步三个坑，无奈只能自己手撸最简单的QLearning算法。（环境并不适合，因为状态太多，下面会解释）

2. Qlearning 是什么

强化学习在机器学习里面只是一个分支，QLearing 是强化学习的一个简单算法，可以理解为学程序时的最基础的冒泡排序，至于那些乱七八糟的定义，历史，百度吧，我也记不住，问题不大，解决问题优先。

3.Qlearning原理

本来想贴百度百科上来，不过那种官方的定义不够白话，有点类似文言文，有基础的一下就能看懂，没基础的看不懂。意义不大。

3.1首先看下强化学习的概念：

了解本专栏

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

香菜+ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。