创建一个5*5网格世界,遵守以下规则:对不同行为进行奖励和乘法,选出最优的方案。
题目:
思路:
编写程序解决问题的步骤:
首先理解问题,将问题拆分,表达出每个部分的意思。
联系各个部分,考虑特殊情况, 编写代码。
不断修改,直到自己觉得np就OK。
代码:
# -*- coding: utf-8 -*-
"""
Created on Mon Apr 25 10:43:07 2022
创建5*5的矩阵
四种可能行为1234,每次行为都会得分减1
初始位置[2,1]
到达终点[5,5],得分加10,
到达得分点[2,4],得分加5,同时跳到[4,4]
障碍物[3,3],[3,4],[3,5],[4,3]
@author: lx
"""
import random
import numpy as np
'''
#生成5*5数组函数
#用numpy模块,先创建矩阵5行5列
#更改初始值为1,障碍也为1
[[0 0 0 0 0]
[0 0 0 0 0]
[0 0 1 1 1]
[0 0 1 0 0]
[0 0 0 0 0]]
'''
def array():
arr = np.zeros((5, 5), dtype=np.int32)
#障碍
a