0基础入门强化学习,非程序也能看得懂|Qlearning

19 篇文章 18 订阅 ¥99.90 ¥299.90
这篇博客介绍了Qlearning,一种强化学习的基础算法。通过训练小狗如何正确上厕所的例子,解释了强化学习的概念,即通过奖励来强化行为记忆。Qlearning通过动态规划和表格储存历史经验,以找到最佳行动策略。博主还给出了Qlearning的算法公式,并概述了其实现步骤,包括定义状态、行为、奖励和更新经验。虽然没有给出具体代码,但强调了理解算法逻辑的重要性,鼓励读者自行探索或交流。
摘要由CSDN通过智能技术生成

1. 引言

这是这个系列的第一篇,为什么会突然写这么一篇?这是因为公司最近搞了一个拳皇97 AI 大赛,各个程序摩拳擦掌,对于我来说有点难,不会玩,不懂客户端,试着写了下发现很难发出招式。本想用机器学习解决问题,奈何在公司网络限制,搞了两天,又由于还有正经工作,断断续续的,环境搭建不起来,简直是走一步三个坑,无奈只能自己手撸最简单的QLearning算法。(环境并不适合,因为状态太多,下面会解释)

2. Qlearning 是什么

  强化学习在机器学习里面只是一个分支,QLearing 是强化学习的一个简单算法,可以理解为学程序时的最基础的冒泡排序,至于那些乱七八糟的定义,历史,百度吧,我也记不住,问题不大,解决问题优先。

3.Qlearning原理

   本来想贴百度百科上来,不过那种官方的定义不够白话,有点类似文言文,有基础的一下就能看懂,没基础的看不懂。意义不大。

3.1首先看下强化学习的概念:

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

香菜+

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值