每日一练:“打家劫舍“(House Robber)问题 I

在这里插入图片描述

1. 问题

  假设有一排房屋,每个房屋里都存放着一定数量的财宝。相邻的房屋装有相互连通的防盗系统,如果两个相邻的房屋在同一晚上被小偷闯入,系统会自动报警。
  求解的问题是,小偷在不触发警报的情况下,一晚上最多能偷到多少财宝。

2. 解题思路(状态转移方程)

2.1 状态转移方程

  状态转移方程是系统动力学中描述系统状态随时间演变的数学方程。这种方程通常用来表示系统的状态如何从一个时间点转移到下一个时间点。在控制理论、物理系统建模、经济学等领域,状态转移方程是非常常见且重要的概念。
  一般而言,状态转移方程可以用如下的形式表示:
在这里插入图片描述
  ·x(t)是系统在时间t的状态向量。
  ·u(t)是在时间t的输入向量。
  ·A是状态转移矩阵,描述系统状态如何随时间演变。
  ·B是输入矩阵,描述输入如何影响状态的演变。
  这个方程表示系统在下一个时间点的状态x(t+1)是当前状态x(t)通过矩阵A的变换加上输入u(t)通过矩阵B的变换得到的。
  在一些应用中,状态转移方程也可能包含时间的影响、随机扰动等因素,具体形式可能会更加复杂。

2.2 解题思路

  为了应用状态转移方程解决这个问题,可以将问题抽象成一个动态规划问题,其中状态表示小偷在每个房屋处的状态。假设有n个房屋,用f()表示小偷在第个房屋时能够获得的最大财物价值。状态转移方程可以表示为:
在这里插入图片描述
  f(i)是在第个房屋时能够获得的最大财物价值价值[i是第我个房屋中的财物价值。
  f(i-1)表示小偷选择不盗窃当前房屋,所以能够获得的最大财物价值与前一个房屋的最大财物价值相同。
  F(i-2)+value[i]表示小偷选择盗窃当前房屋,所以能够获得的最大财物价值为前两个房屋的最大财物价值加上当前房屋的财物价值。
  这个状态转移方程反映了一个典型的动态规划问题,通过递推求解,可以找到小偷在整个房屋序列中能够获得的最大财物价值。这个问题的动态规划解法避免了重复计算,提高了效率

3. 代码设计思路

  问题表述:给定一个整数数组 nums,表示每个房屋中的财宝数量,小偷在不触发警报的情况下,一晚上最多能偷到多少财宝。
  例如,给定 nums = [1, 2, 3, 1],表示有四个房屋,分别存放着 1、2、3、1 单位的财宝。如果小偷选择偷窃第1号和第3号房屋,那么最终能偷到的财宝最大,为1 + 3 = 4
  这个问题可以用动态规划来解决。设 dp[i] 表示在前i 个房屋中能偷到的最大财宝数量。对于第i 个房屋,小偷有两个选择:要么偷这个房屋,要么不偷。如果偷第i 个房屋,那么最大财宝数量就是前i-2 个房屋的最大财宝数量加上第i 个房屋中的财宝数量。如果不偷第i 个房屋,那么最大财宝数量就是前i-1 个房屋的最大财宝数量。因此,可以得到状态转移方程:
在这里插入图片描述

3. 代码实现

def rob(nums):
    # 如果房屋为空,则返回0
    if not nums:
        return 0
    
    # 如果只有一个房屋,则抢劫该房屋
    if len(nums) == 1:
        return nums[0]
    
    # 初始化一个列表,用于保存房屋的最大抢劫金额
    # dp[i] 表示在前i个房屋中能够抢到的最大金额
    dp = [0] * len(nums)
    
    # 初始化前两个房屋的最大抢劫金额
    dp[0] = nums[0]
    dp[1] = max(nums[0], nums[1])
    
    # 从第三个房屋开始计算最大抢劫金额
    for i in range(2, len(nums)):
        # 动态规划递推公式:dp[i] = max(dp[i-1], dp[i-2] + nums[i])
        dp[i] = max(dp[i-1], dp[i-2] + nums[i])
    
    # 返回最后一个房屋的最大抢劫金额
    return dp[-1]

# 示例
nums = [2, 7, 9, 3, 1]
result = rob(nums)
print(result)

4. 动态规划算法

  通常用于求解具有某种最优性质的问题。在这类问题中,可能会有许多可行解。每一个解都对应于一个值,我们希望找到具有最优值的解。动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。与分治法不同的是,适合于用动态规划求解的问题,经分解得到子问题往往不是互相独立的。若用分治法来解这类问题,则分解得到的子问题数目太多,有些子问题被重复计算了很多次。如果我们能够保存已解决的子问题的答案,而在需要时再找出已求得的答案,这样就可以避免大量的重复计算,节省时间。我们可以用一个表来记录所有已解的子问题的答案。不管该子问题以后是否被用到,只要它被计算过,就将其结果填入表中。这就是动态规划法的基本思路。具体的动态规划算法多种多样,但它们具有相同的填表格式。

5. 动态规划术语

  阶段:把所给求解问题的过程恰当地分成若干个相互联系的阶段,以便于求解,过程不同,阶段数就可能不同.描述阶段的变量称为阶段变量。在多数情况下,阶段变量是离散的,用k表示。此外,也有阶段变量是连续的情形。如果过程可以在任何时刻作出决策,且在任意两个不同的时刻之间允许有无穷多个决策时,阶段变量就是连续的 。

  状态:状态表示每个阶段开始面临的自然状况或客观条件,它不以人们的主观意志为转移,也称为不可控因素。在上面的例子中状态就是某阶段的出发位置,它既是该阶段某路的起点,同时又是前一阶段某支路的终点。

  无后效性:我们要求状态具有下面的性质:如果给定某一阶段的状态,则在这一阶段以后过程的发展不受这阶段以前各段状态的影响,所有各阶段都确定时,整个过程也就确定了。换句话说,过程的每一次实现可以用一个状态序列表示,在前面的例子中每阶段的状态是该线路的始点,确定了这些点的序列,整个线路也就完全确定。从某一阶段以后的线路开始,当这段的始点给定时,不受以前线路(所通过的点)的影响。状态的这个性质意味着过程的历史只能通过当前的状态去影响它的未来的发展,这个性质称为无后效性。

  决策:一个阶段的状态给定以后,从该状态演变到下一阶段某个状态的一种选择(行动)称为决策。在最优控制中,也称为控制。在许多问题中,决策可以自然而然地表示为一个数或一组数。不同的决策对应着不同的数值。描述决策的变量称决策变量,因状态满足无后效性,故在每个阶段选择决策时只需考虑当前的状态而无须考虑过程的历史 [6] 。
决策变量的范围称为允许决策集合 。

  策略:由每个阶段的决策组成的序列称为策略。对于每一个实际的多阶段决策过程,可供选取的策略有一定的范围限制,这个范围称为允许策略集合 。
  允许策略集合中达到最优效果的策略称为最优策略。
  给定k阶段状态变量x(k)的值后,如果这一阶段的决策变量一经确定,第k+1阶段的状态变量x(k+1)也就完全确定,即x(k+1)的值随x(k)和第k阶段的决策u(k)的值变化而变化,那么可以把这一关系看成(x(k)u(k))x(k+1)确定的对应关系,用x(k+1)=Tk(x(k),u(k))表示。这是从k阶段到k+1阶段的状态转移规律,称为状态转移方程 。

  最优化原理:作为整个过程的最优策略,它满足:相对前面决策所形成的状态而言,余下的子策略必然构成“最优子策略”。
  最优性原理实际上是要求问题的最优策略的子策略也是最优。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

snail哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值