1原理 强化学习就是计算Q表,待Q表稳定之后用来为action服务 2代码 # -*- coding: utf-8 -*- import numpy as np import time u=0.6#学习率 #构建Reward矩阵 R=np.zeros([6,6]) R[0]=[-1,-1,-1,-1,0,-1] R[1]=[-1