使用深度 Q 学习的 AI 驱动蛇游戏源码分享

最新推荐文章于 2021-09-19 16:24:34 发布

Python炭烧

最新推荐文章于 2021-09-19 16:24:34 发布

阅读量228

点赞数

分类专栏： python 程序员

本文链接：https://blog.csdn.net/m0_57227221/article/details/119824612

版权

本文介绍了一个使用深度Q学习实现的蛇游戏AI，详细阐述了算法、模型和代理的设计。环境、模型（基于Pytorch的神经网络）和代理是项目的三个关键模块。模型通过贝尔曼方程更新Q值，代理负责与环境交互。经过约100个时期的训练，AI性能提升。源代码和训练进度展示有助于理解应用强化学习于游戏控制。

摘要由CSDN通过智能技术生成

在构建基本的蛇游戏之后，现在我们将专注于如何将强化学习应用于它。

我们必须在这个项目中创建三个模块：

1.环境（我们刚刚构建的游戏）
2.模型（移动预测的强化模型）
3.代理（环境和模型之间的中介）

算法：

我们在棋盘上随机放置了蛇和食物。

使用 11 个值计算蛇的状态。如果有任何条件为真，则将该值设置为0，否则设置1。

如何定义 11 个状态
基于当前的 Head 位置代理将计算 11 个状态值，如上所述。

获得这些状态后，代理会将其传递给模型并执行下一步操作。
执行下一个状态后计算奖励。奖励定义如下：

吃食物：+10
游戏结束：-10
其他：0
更新 Q 值（稍后将讨论）并训练模型。

在分析了算法之后，现在我们必须建立思想来继续编码这个算法。

该模型：

神经网络模型

该模型是使用 Pytorch 设计的，但您也可以根据自己的舒适度使用 TensorFlow。

我们正在使用具有11 大小输入层和具有 256 个神经元和3 个神经元输出的密集层的密集神经网络。您可以调整这些超参数以获得最佳结果。

模型如何工作？

游戏开始，Q值随机初始化。
系统获取当前状态 s。
它基于 s，随机或基于其神经网络执行一个动作。在训练的第一阶段，系统经常选择随机动作来最大化探索。后来，该系统越来越依赖其神经网络。
当 AI 选择并执行动作时，环境会给予奖励。然后，代理到达新状态并根据贝尔曼方程更新其 Q 值。

贝尔曼方程
此外，对于每一步，它存储原始状态、动作、执行该动作后达到的状态、获得的奖励以及游戏是否结束。这些数据随后被采样以训练神经网络。此操作称为重放记忆。
重复最后两个操作，直到满足某个条件（例如：游戏结束）。

该项目的核心是您将要训练的模型，因为蛇将采取的动作的正确性完全取决于您构建的模型的质量。所以我想用部分代码向你解释这一点。

第一部分

class Linear_QNet(nn.Module):
	def __init__(self, input_size, hidden_size, output_size):
		super().__init__()
		self.linear1 = nn.Linear(input_size, hidden_size)
		self.linear2 = nn.Linear(hidden_size, output_size)

	def forward(self, x):
		x = F.relu(self.linear1(x))
		x = self.linear2(x)
		return x

	def save(self, file_name='model_name.pth'):
		model_folder_path = 'Path'
		file_name = os.path.join(model_folder_path, file_name)
		torch.save(self.state_dict(), file_name)

第二部分

class QTrainer:
	def __init__(self,model,lr,gamma):
#Learning Rate for Optimizer
		self.lr = lr
#Discount Rate
		self.gamma = gamma
#Linear NN defined above.
		self.model = model
#optimizer

最低0.47元/天解锁文章

Python炭烧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用深度 Q 学习的 AI 驱动蛇游戏源码分享

在构建基本的蛇游戏之后，现在我们将专注于如何将强化学习应用于它。我们必须在这个项目中创建三个模块：1.环境（我们刚刚构建的游戏）2.模型（移动预测的强化模型）3.代理（环境和模型之间的中介）算法：我们在棋盘上随机放置了蛇和食物。使用 11 个值计算蛇的状态。如果有任何条件为真，则将该值设置为0，否则设置1。如何定义 11 个状态基于当前的 Head 位置代理将计算 11 个状态值，如上所述。获得这些状态后，代理会将其传递给模型并执行下一步操作。执行下一个状态后计算奖励。奖励定.
复制链接

扫一扫