通过Q-Learning的实现帮助理解强化学习

eeee~~

于 2024-08-19 10:31:37 发布

阅读量406

点赞数 14

分类专栏：机器学习文章标签：机器学习 python 算法人工智能

本文链接：https://blog.csdn.net/2301_80651329/article/details/141311691

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Q学习（Q-Learning）是一种无模型的强化学习算法，主要用于求解马尔可夫决策过程（MDP）问题。它通过学习一个动作值函数（称为Q函数），来指导智能体在给定状态下应采取的最佳动作。Q学习不需要环境的模型，因此它属于模型自由（model-free）的算法。

Q学习的基本概念：

Q函数（Q-Function）：Q函数表示在给定状态s下采取动作a所能获得的期望回报。它通常表示为Q(s, a)。
回报（Reward）：智能体在执行某个动作后从环境中获得的立即反馈。
折扣因子（Discount Factor）：用于权衡即时回报和未来回报的重要性，通常表示为γ。
探索与利用（Exploration vs Exploitation）：智能体需要在探索未知动作和利用已知最佳动作之间做出权衡。

Q学习算法的步骤：

初始化Q表，通常所有值设为0。
对于每个episode（一个完整的交互序列，从开始到结束）：
- 选择一个动作（基于ε-greedy策略，，一部分时间随机选择动作以探索环境）。
- 执行动作，观察新的状态和奖励。
- 更新Q表，使用贝尔曼方程更新Q值：Q(s,a)=Q(s,a)+α[R+γa′maxQ(s′,a′)−Q(s,a)]
  其中，s是当前状态，a是采取的动作，s’是下一个状态，R是奖励，α是学习率。
- 移动到下一个状态。
重复上述过程直到Q表收敛或达到预定的迭代次数。

接下来我们通过一个强化学习的具体示例来理解Q-Learning算法。强化学习是一种机器学习方法，其中智能体通过与环境的交互来学习如何最大化其累积的奖励，强化学习现在比较流行的应用领域有棋牌，游戏等。为了创建一个简单的强化学习案例，我们将创建一个简单的网格世界环境，其中智能体需要学习到达目标位置的策略。

环境设置：

网格大小：5x5
智能体起始位置：(0, 0)
目标位置：(4, 4)
可采取的动作：上、下、左、右

Q学习参数：

学习率（α）：0.1
折扣因子（γ）：0.9
探索率（ε）：0.1

学习过程：

初始化Q表为0。
对于每个episode：
- 选择一个动作（基于ε-greedy策略）。
- 执行动作，观察新的状态和奖励。
- 更新Q表。
- 如果到达目标状态，结束episode。

目标：

学习一个策略，使智能体能够从起始位置到达目标位置。

一：Q-Learning实现代码示例

现在，我将编写Python代码来实现上述强化学习案例。

import numpy as np
import random

# 环境设置
grid_size = 5
start_state = (0, 0)
goal_state = (4, 4)

# Q学习参数
learning_rate = 0.1
discount_factor = 0.9
exploration_rate = 0.1

# 初始化Q表
Q = np.zeros((grid_size, grid_size, 4))  # 4个动作：上、下、左、右

# 定义动作
actions = ['up', 'down', 'left', 'right']

# 定义奖励函数
def reward(state):
    if state == goal_state:
        return 1
    else:
        return -0.1

# 定义状态转移函数
def next_state(state, action):
    i, j = state
    if action == 'up':
        i = max(i - 1, 0)
    elif action == 'down':
        i = min(i + 1, grid_size - 1)
    elif action == 'left':
        j = max(j - 1, 0)
    elif action == 'right':
        j = min(j + 1, grid_size - 1)
    return (i, j)

# Q学习算法
def q_learning():
    episodes = 1000
    for episode in range(episodes):
        state = start_state
        while state != goal_state:
            # ε-greedy策略选择动作
            if random.uniform(0, 1) < exploration_rate:
                action = random.choice(actions)
            else:
                action = actions[np.argmax(Q[state[0], state[1]])]

            # 执行动作，观察新的状态和奖励
            next_state_ = next_state(state, action)
            reward_ = reward(next_state_)

            # 更新Q表
            Q[state[0], state[1], actions.index(action)] = (1 - learning_rate) * Q[state[0], state[1], actions.index(action)] + learning_rate * (reward_ + discount_factor * np.max(Q[next_state_[0], next_state_[1]]))

            # 移动到下一个状态
            state = next_state_

# 训练模型
q_learning()

# 输出Q表
Q

需要注意的是Q表在此代码中是一个三维数组，这个Q表记录了在每个状态下采取每个动作的期望回报（Q值）。Q表的结构是一个三维数组，其中第一维和第二维分别代表网格世界中的行和列，第三维代表四个可能采取的动作（上、下、左、右）。Q值越高，表示在对应状态下采取对应动作的期望回报越大。Q值为正表示长期来看该动作是有利的，而Q值为负则表示长期来看该动作是不利的。

二：代码详解

接下来我们来详细解释下这段代码：

这是一个简单的Q学习算法的实现，用于在一个5x5的网格世界中训练智能体从起始位置到达目标位置。下面我将解释代码的主要部分：
1. 环境设置：定义网格大小、起始状态和目标状态。
2. Q学习参数：设置学习率（α）、折扣因子（γ）和探索率（ε）。
3. 初始化Q表：创建一个三维数组来存储每个状态下的每个动作的Q值。
4. 定义动作：智能体可以采取的动作（上、下、左、右）。
5. 奖励函数：根据当前状态返回奖励。如果状态是目标状态，奖励为1；否则为-0.1。
6. 状态转移函数：根据当前状态和采取的动作计算下一个状态。
7. Q学习算法：
- 对于每个episode（从起始状态到目标状态的完整路径）：
- 使用ε-greedy策略选择动作：以ε的概率随机选择动作（探索），否则选择当前Q值最高的动作（利用）。
- 执行动作，观察新的状态和奖励。
- 使用贝尔曼方程更新Q表。
- 移动到下一个状态。
- 重复上述过程直到达到预定的迭代次数（这里为1000次）。
代码的输出：
- 训练完成后，Q表将包含每个状态下的每个动作的Q值。这些Q值表示在特定状态下采取特定动作的期望回报。

ε-greedy策略介绍

 # ε-greedy策略选择动作
 if random.uniform(0, 1) < exploration_rate:
    action = random.choice(actions)

在这段代码中，`ε-greedy策略选择动作`的这一部分负责在探索和利用之间做出选择。这是强化学习中的一个关键步骤，用于决定智能体在给定状态下应采取的行动。具体来说：
1. ε-greedy策略：这是一种智能体在选择行动时使用的策略。它结合了探索（exploration）和利用（exploitation）。
2. 随机选择动作：如果`random.uniform(0, 1)`生成的随机数小于`exploration_rate`（即ε），智能体将随机选择一个动作。这意味着智能体在探索环境中，尝试不同的行动以获取更多信息。
3. 贪婪选择动作：如果随机数大于或等于ε，智能体将选择当前状态下Q值最高的动作。这意味着智能体利用其当前知识，选择最有可能带来高回报的行动。
代码的具体作用：
- `random.uniform(0, 1)`生成一个介于0和1之间的随机数。
- 如果这个随机数小于`exploration_rate`，智能体将执行探索步骤，随机选择一个动作。
- 如果这个随机数大于或等于`exploration_rate`，智能体将执行利用步骤，选择当前状态下Q值最高的动作。

贝尔曼方程更新Q表

# 更新Q表
Q[state[0], state[1], actions.index(action)] = (1 - learning_rate) * Q[state[0], state[1], actions.index(action)] + learning_rate * (reward_ + discount_factor * np.max(Q[next_state_[0], next_state_[1]]))

这是是Q学习算法中的关键部分，用于更新Q表。在Q学习中，Q表存储了智能体在不同状态下采取不同动作的期望回报。这个更新过程是智能体学习如何在不同情况下选择最佳动作的核心。
1. Q表的更新公式：

Q(s,a)=Q(s,a)+α[R+γa′maxQ(s′,a′)−Q(s,a)]，在前文各个变量的意义也有所展示。
2. 代码实现：
- `Q[state[0], state[1], actions.index(action)]` 表示当前状态和动作的Q值。
- `(1 - learning_rate) * Q[state[0], state[1], actions.index(action)]` 表示旧Q值的部分保持不变。
- `learning_rate * (reward_ + discount_factor * np.max(Q[next_state_[0], next_state_[1]])` 表示新Q值的部分，其中：
- `reward_` 是执行动作后获得的即时奖励。
- `discount_factor * np.max(Q[next_state_[0], next_state_[1]])` 是未来回报的期望，即在下一个状态中所有可能动作的Q值的最大值。

三：结果说明

最后我们得到三维数组Q表如下：

例如，这个表的第一行分别是Q[0，0，0]，Q[0，0，1]，Q[0，0，2]，Q[0，0，3]，其中Q[0, 0, 3] = -0.0434062，这意味着在状态(0, 0)（左上角）采取动作’right’（向右移动）的Q值是-0.0434062。这表明从长期来看，从起始位置向右移动并不是一个很好的选择。
另一个例子，Q[4, 4, 0] = 0，这意味着在目标状态(4, 4)（右下角）采取任何动作的Q值都是0，因为一旦到达目标状态，智能体不再需要采取任何动作。

以上就是Q-Learning的示例实现，可以帮助我们理解Q学习（Q-Learning）算法和强化学习。

点下关注，分享更多有关AI，数据分析和量化金融的实用教程和实战项目。