强化学习寻宝游戏

代码

import numpy as np
import tkinter as tk
import time
import random

# 自定义寻宝游戏环境
class TreasureHuntEnv:
    def __init__(self):
        self.grid_size = 10  # 网格大小
        self.actions = ['up', 'down', 'left', 'right']  # 可能的动作
        self.reset()

    def reset(self):
        """重置环境,返回初始状态"""
        # 初始化网格
        self.grid = np.zeros((self.grid_size, self.grid_size), dtype=int)
        # 放置智能体
        self.agent_pos = (0, 0)
        self.grid[self.agent_pos] = 1
        # 放置宝藏
        self.treasure_pos = (self.grid_size - 1, self.grid_size - 1)
        self.grid[self.treasure_pos] = 2
        # 放置障碍物
        for _ in range(10):
            x, y = random.randint(0, self.grid_size - 1), random.randint(0, self.grid_size - 1)
            if (x, y) not in [self.agent_pos, self.treasure_pos]:
                self.grid[x, y] = 3
        # 放置陷阱
        for _ in range(5):
            x, y = random.randint(0, self.grid_size - 1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值