机试指南-深搜-类似迷宫题

问题大意

剪枝

代码

#include <iostream>
#include <algorithm>
#include <queue>
#include <vector>
#include <cmath>
#include <cstring>

#define N 105

using namespace std;

int m, n, T;
char temple[N][N]; // 数据 
int visited[N][N];

int dx[4] = {0, 0, 1, -1};
int dy[4] = {1, -1, 0, 0};

bool isFind = false;
void backTrack(int x, int y, int t){
	// 遍历下一个位置 
	for(int i = 0; i < 4 && !isFind; i++){
		if(x + dx[i] < 1 || x + dx[i] > m || y + dy[i] < 1 || y + dy[i] > n){
			continue;
		}
		if(temple[x + dx[i]][y + dy[i]] == '.' && !visited[x + dx[i]][y + dy[i]]){ // 可行 
			visited[x + dx[i]][y + dy[i]] = 1;
			backTrack(x + dx[i], y + dy[i], t + 1);
			visited[x + dx[i]][y + dy[i]] = 0;
		}else if(temple[x + dx[i]][y + dy[i]] == 'D' && t + 1 == T){
			isFind = true;
			return;
		}
	}
}

int main(){
	freopen("in.txt", "r", stdin);
	
	while(cin >> m >> n >> T){
		if(m == 0 && n == 0 && T == 0){
			break;
		}
		
		int start_i, start_j; // S
		int end_i, end_j; // D
		// 读取数据,顺便找S和D
		for(int i = 1; i <= m; i++){
			for(int j = 1; j <= n; j++){
				cin >> temple[i][j];
				visited[i][j] = 0;
				
				if(temple[i][j] == 'S'){
					start_i = i;
					start_j = j;
				}
				if(temple[i][j] == 'D'){
					end_i = i;
					end_j = j;
				}
			}
		}
		
		// 判断是否可行,不可行直接NO 
		int tmp = (start_i + start_j) - (end_i + end_j);
		tmp = tmp > 0 ? tmp : -tmp;
		if(tmp % 2 != T % 2){
			cout << "NO" << endl;
			continue;
		}
		
		isFind = false;
		backTrack(start_i, start_j, 0);
		if(isFind){
			cout << "YES" << endl;
		}else{
			cout << "NO" << endl;
		}
	}
	
	return 0;
}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,我可以为你提供一些关于使用 Q-learning 算法制作迷宫的建议。 首先,你需要定义一个迷宫的环境,可以使用 Python 中的 numpy 数组来表示。数组中的每个元素都代表迷宫中的一个状态,可以是空地、墙壁、起点或终点等。例如,可以使用以下代码来创建一个简单的迷宫环境: ``` import numpy as np maze = np.array([ [1, 1, 1, 1, 1, 1, 1], [1, 0, 0, 0, 0, 0, 1], [1, 0, 1, 1, 1, 0, 1], [1, 0, 0, 0, 1, 0, 1], [1, 1, 1, 0, 0, 0, 1], [1, 0, 0, 0, 1, 0, 1], [1, 1, 1, 1, 1, 1, 1] ]) ``` 其中,1 代表墙壁,0 代表空地。 接下来,你需要定义 Q-learning 算法中的参数,包括学习率、折扣因子和探索率等。学习率控制每次更新 Q 值时的权重,折扣因子用于衡量未来奖励的重要性,探索率用于平衡探索新状态和利用已知信息的程度。 例如,可以使用以下代码来定义参数: ``` learning_rate = 0.8 discount_factor = 0.95 exploration_rate = 0.1 ``` 然后,你需要初始化 Q 值表,可以使用 numpy 数组来表示。Q 值表中的每个元素都代表在某个状态下采取某个动作的 Q 值,例如: ``` q_table = np.zeros((maze.size, 4)) ``` 其中,maze.size 表示迷宫中状态的总数,4 表示可以采取的动作数,例如向上、向下、向左和向右。 接下来,你需要实现 Q-learning 算法中的更新过程,可以使用以下代码: ``` state = start_state while state != end_state: action = choose_action(state, q_table, exploration_rate) next_state = get_next_state(state, action) reward = get_reward(next_state) q_table[state, action] += learning_rate * (reward + discount_factor * np.max(q_table[next_state, :]) - q_table[state, action]) state = next_state ``` 其中,choose_action 函数用于根据当前状态和 Q 值表选择一个动作,get_next_state 函数用于根据当前状态和动作计算下一个状态,get_reward 函数用于计算采取某个动作后的奖励。 最后,你需要实现一个训练函数来训练 Q-learning 算法,例如: ``` def train(maze, q_table, learning_rate, discount_factor, exploration_rate, num_episodes): for i in range(num_episodes): state = start_state while state != end_state: action = choose_action(state, q_table, exploration_rate) next_state = get_next_state(state, action) reward = get_reward(next_state) q_table[state, action] += learning_rate * (reward + discount_factor * np.max(q_table[next_state, :]) - q_table[state, action]) state = next_state exploration_rate *= 0.99 # 逐渐减小探索率 return q_table ``` 其中,num_episodes 表示训练的轮数。 希望这些建议可以帮助你制作一个基于 Q-learning 算法的迷宫

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值