深度强化学习基础【1】-动态规划问题初探(leetcode算法的63题-不同路径II)

这篇博客探讨了基于动态规划解决LeetCode的63题,即在一个包含障碍物的网格中找到从左上角到右下角的不同路径数量。博主分析了问题,提出递推公式,并展示了使用Python的for循环遍历及滚动数组两种实现方法,进行了20x20网格的测试。
摘要由CSDN通过智能技术生成

引言: 这篇博客的算法问题来源于leetcode算法的63题,一个网格世界的机器人运动规划问题。通过这篇博客可以使得读者更加了解强化学习关于动态规划方面的基础知识。

这深度强化学习基础【1】-动态规划问题初探(leetcode算法的63题-不同路径II)

1. 问题描述

1个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish”)。现在考虑网格中有障碍物。那么从左上角到右下角将会有多少条不同的路径?网格中的障碍物和空位置分别用 1 和 0 来表示。

对于1个3x3空间,可表述为:

输入: obstacleGrid = [[0,0,0],[0,1,0],[0,0,0]]
输出: 2
说明: 3x3 网格的正中间有一个障碍物。
从左上角到右下角一共有 2 条不同的路径:

  1. 向右 -> 向右 -> 向下 -> 向下
  2. 向下 -> 向下 -> 向右 -> 向右
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Robo-网络矿产提炼工

你的鼓励将是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值