下面是一个简单的Q-learning算法的Python实现。这个代码示例是一个简化的版本,主要用于演示Q-learning的基本原理。在这个例子中,我们假设环境是一个简单的迷宫,其中有四个状态(S0, S1, S2, S3),并且可以从每个状态转移到其他任意状态。奖励函数是任意的,仅用于示例。
python复制代码
import numpy as np |
|
# 定义环境参数 |
|
states = ['S0', 'S1', 'S2', 'S3'] |
|
actions = ['a0', 'a1', 'a2', 'a3'] # 假设在每个状态下都可以采取四个动作 |
|
# 初始化Q表 |
|
Q_table = {s: {a: 0 for a in actions} for s in states} |
|
# 超参数 |
|
gamma = 0.8 # 折扣因子 |
|
a |