使用深度Q学习训练黑杰克Agent

最新推荐文章于 2025-04-22 18:13:09 发布

步子哥

最新推荐文章于 2025-04-22 18:13:09 发布

阅读量368

点赞数 3

文章标签：学习人工智能游戏

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140397019

版权

在这篇文章中，我们将介绍如何使用深度Q学习（DQN）算法来训练一个黑杰克（Blackjack）代理。我们将展示如何利用RLCard工具包开发和应用强化学习算法。为了使内容自包含，我们首先安装RLCard。

安装RLCard和PyTorch

首先，我们需要安装RLCard和PyTorch。你可以通过以下命令来安装：

!pip install rlcard[torch]

安装过程会下载和安装RLCard库及其依赖项，包括PyTorch。

导入RLCard和DQNAgent

安装完毕后，我们需要导入RLCard和一个DQN代理。DQN代理将学习如何在游戏中获胜。

import rlcard
from rlcard.agents import DQNAgent

创建黑杰克环境

接下来，我们通过将blackjack传递给make方法来创建一个黑杰克环境，并查看其基本信息。

env = rlcard.make("blackjack")
print("Number of actions:", env.num_actions)
print("Number of players:", env.num_players)
print("Shape of state:", env.state_shape)
print("Shape of action:", env.action_shape)

输出的信息如下：

Number of actions: 2
Number of players: 1
Shape of state: [[2]]
Shape of action: [None]

由此可知，黑杰克是一款非常简单的游戏，只有两个可能的动作，且只有一个玩家。

创建DQN代理

现在是时候训练我们的DQN代理以掌握这个游戏了！首先，我们创建一个DQNAgent。

agent = DQNAgent(
    num_actions=env.num_actions,
    state_shape=env.state_shape[0],
    mlp_layers=[64, 64],
)

在这里，我们使用一个64-64的深度神经网络来进行学习。然后，我们将DQNAgent传递给环境。

env.set_agents([agent])

准备训练

现在我们准备开始训练！我们首先导入一些用于训练的实用类和函数。

from rlcard.utils import (
    tournament,
    reorganize,
    Logger,
    plot_curve,
)

开始训练并记录性能

以下脚本将训练DQN 1000个周期（即1000局游戏）。通常情况下，代理训练时间越长，性能越强。

with Logger("experiments/blackjack_dqn_result/") as logger:
    for episode in range(1000):
        # 从环境中生成数据
        trajectories, payoffs = env.run(is_training=True)

        # 重新组织数据为状态、动作、奖励、下一状态、完成标志
        trajectories = reorganize(trajectories, payoffs)

        # 将转移数据喂入代理的记忆中，并训练代理
        for ts in trajectories[0]:
            agent.feed(ts)

        # 评估性能
        if episode % 50 == 0:
            logger.log_performance(
                env.timestep,
                tournament(
                    env,
                    10000,
                )[0]
            )

    # 获取路径
    csv_path, fig_path = logger.csv_path, logger.fig_path