1. 引言
这是这个系列的第一篇,为什么会突然写这么一篇?这是因为公司最近搞了一个拳皇97 AI 大赛,各个程序摩拳擦掌,对于我来说有点难,不会玩,不懂客户端,试着写了下发现很难发出招式。本想用机器学习解决问题,奈何在公司网络限制,搞了两天,又由于还有正经工作,断断续续的,环境搭建不起来,简直是走一步三个坑,无奈只能自己手撸最简单的QLearning算法。(环境并不适合,因为状态太多,下面会解释)
2. Qlearning 是什么
强化学习在机器学习里面只是一个分支,QLearing 是强化学习的一个简单算法,可以理解为学程序时的最基础的冒泡排序,至于那些乱七八糟的定义,历史,百度吧,我也记不住,问题不大,解决问题优先。
3.Qlearning原理
本来想贴百度百科上来,不过那种官方的定义不够白话,有点类似文言文,有基础的一下就能看懂,没基础的看不懂。意义不大。
3.1首先看下强化学习的概念: