关键点1:强化学习它的基本思路 强化学习它的思路基本是想要遍历穷举计算各种状态的价值,然后尽可能的达到高价值的那些状态。那么什么是状态?什么是状态的价值?不同问题的里面含有的“状态”的内容和数量都不一样。下面我举个例子。 比如玩井字棋(三个相同色在一条线就赢)。看下面这张图**,每张图对应的棋子放置的位置就是一个状态**。(在本例子中我们编程的话那就保存一个状态就只需要用一个3×3的数组来保存棋谱即可)。 # 用3×3的二维数组保存状态1,假设棋盘中没落子的地方值为0,黑棋为1,绿棋为2 state1 = [ [0,1,0], [2,1</