部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)

1. 什么是POMDP?用生活中的例子理解

POMDP(部分可观测马尔可夫决策过程,Partially Observable Markov Decision Process)是一种用来解决决策问题的数学工具,专门处理环境信息不完全的情况。简单来说,它帮助一个“智能体”(可以是人、机器人、程序)在不知道全部信息的情况下,做出最好的决定。

生活中的例子:找钥匙

想象你早上醒来,找不到家里的钥匙。你知道钥匙可能在以下几个地方:

  • 客厅的沙发上
  • 卧室的床头柜
  • 厨房的桌子上

但你没法直接“看到”钥匙在哪里,只能通过一些线索(比如回忆昨晚的活动,或者去检查某个地方)来推测。你可以采取行动,比如:

  • 去客厅翻沙发
  • 去卧室检查床头柜
  • 去厨房看桌子

每次行动后,你会得到一些“观测”(线索),比如:

  • 在沙发上看到一个闪光的东西,但不确定是钥匙还是硬币。
  • 在床头柜上没找到任何东西。
  • 在厨房闻到咖啡味,但没看到钥匙。

这些观测并不能100%告诉你钥匙的准确位置,但可以帮助你更新对钥匙位置的猜测。你需要根据这些不完整的线索,决定下一步去哪里找,目标是尽快找到钥匙。

在这个例子中:

  • 状态(State):钥匙的真实位置(沙发、床头柜、桌子)。
  • 动作(Action):你决定去哪个地方找(翻沙发、检查床头柜、看桌子)。
  • 观测(Observation):你检查后看到的线索(闪光、没东西、咖啡味)。
  • 目标:尽快找到钥匙(最大化奖励,比如节省时间)。

POMDP就是用来解决这类问题的框架:智能体无法直接知道真实状态(钥匙在哪里),只能通过观测(线索)推测,并选择最优动作(去哪里找)


2. 从基础开始:MDP和POMDP的关系

POMDP是建立在**MDP(马尔可夫决策过程)**基础上的扩展。因为你没有强化学习基础,我们先从MDP讲起,理解了MDP再过渡到POMDP会更容易。

2.1 什么是MDP?(完全可观测的情况)

MDP是用来解决智能体知道所有信息的决策问题。继续用找钥匙的例子,但这次假设你有“超能力”,能直接看到钥匙在哪个位置(完全可观测)。MDP的决策过程就像下面这样:

  1. 状态(State):你清楚地知道钥匙的当前位置,比如“钥匙在沙发上”。
  2. 动作(Action):你可以选择去某个地方找,比如“去沙发”。
  3. 奖励(Reward):如果你去对了地方(比如钥匙在沙发,你去了沙发),你会得到奖励,比如“节省时间”或“+10分”。如果去错了地方,可能得到惩罚,比如“浪费时间”或“-1分”。
  4. 状态转移(Transition):你采取行动后,环境会发生变化。比如,你去沙发找到钥匙后,状态变成“钥匙已被找到”,游戏结束。
  5. 目标:通过选择合适的动作,尽可能多地获得奖励(比如尽快找到钥匙)。

在MDP中,智能体总是知道当前状态(钥匙在哪里),所以决策很简单:直接去钥匙所在的地方。

2.2 从MDP到POMDP

现实生活中,我们很少有“超能力”能直接知道所有信息(比如钥匙的准确位置)。POMDP就是在MDP的基础上,增加了信息不完全的设定。回到找钥匙的例子:

  • 不知道钥匙的准确位置(状态不可观测)。
  • 你只能通过检查某个地方(动作)得到线索(观测),比如“在沙发上看到闪光”。
  • 你需要根据这些线索,猜测钥匙可能在哪里,然后决定下一步去哪里找。

POMDP比MDP更贴近现实,因为它考虑了不确定性。智能体需要:

  1. 根据观测(线索)推测可能的真实状态(钥匙的位置)。
  2. 在不确定性下选择最优动作(去哪里找)。

3. POMDP的组成:七个核心部分

POMDP用七个部分来描述一个决策问题。我们用找钥匙的例子,详细讲解每个部分。

POMDP的数学定义是一个七元组: P O M D P = ( S , A , T , R , Ω , O , γ ) POMDP = (S, A, T, R, \Omega, O, \gamma) POMDP=(S,A,T,R,Ω,O,γ)

别被公式吓到!我们会一个一个解释,带例子,确保你明白。

3.1 状态集合(S)

状态是环境的真实情况。在找钥匙的例子中,可能的状态是:

  • s 1 s_1 s1:钥匙在沙发上
  • s 2 s_2 s2:钥匙在床头柜上
  • s 3 s_3 s3:钥匙在厨房桌子上

状态集合 S S S 就是所有可能状态的集合: S = { s 1 , s 2 , s 3 } S = \{ s_1, s_2, s_3 \} S={ s1,s2,s3}

关键点:在POMDP中,你(智能体)不知道当前状态是什么,只能通过线索推测。

3.2 动作集合(A)

动作是你可以采取的行为。在找钥匙的例子中,你可以:

  • a 1 a_1 a1:去沙发检查
  • a 2 a_2 a2:去床头柜检查
  • a 3 a_3 a3:去厨房桌子检查

动作集合 A A A 是所有可能动作的集合: A = { a 1 , a 2 , a 3 } A = \{ a_1, a_2, a_3 \} A={ a1,a2,a3}

3.3 状态转移概率(T)

状态转移概率描述你采取某个动作后,环境状态如何变化。数学上,它是: T ( s ′ ∣ s , a ) = P ( s t + 1 = s ′ ∣ s t = s , a t = a ) T(s' | s, a) = P(s_{t+1} = s' | s_t = s, a_t = a) T(ss,a)=P(st+1=sst=s,at=a)

意思是:在状态 s s s,执行动作 a a a,环境转移到状态 s ′ s' s 的概率。

在找钥匙的例子中,假设你找到钥匙后,游戏结束(进入一个特殊状态,比如“已找到”)。我们定义:

  • 如果钥匙在沙发上( s 1 s_1 s1),你去沙发检查( a 1 a_1 a1),你会找到钥匙,状态变成“已找到”(记为 s 4 s_4 s4),概率是100%: T ( s 4 ∣ s 1 , a 1 ) = 1.0 T(s_4 | s_1, a_1) = 1.0 T(s4s1,a1)=1.0
  • 如果你去错了地方(比如钥匙在沙发上,但你去床头柜检查 a 2 a_2 a2),状态不变,仍然是 s 1 s_1 s1 T ( s 1 ∣ s 1 , a 2 ) = 1.0 T(s_1 | s_1, a_2) = 1.0 T(s1s1,a2)=1.0

通俗解释:状态转移概率就像告诉你,“如果你做了这个动作,世界会怎么变?”在找钥匙的例子中,状态要么不变(没找到钥匙),要么变成“已找到”。

3.4 奖励函数(R)

奖励函数告诉你每种动作的结果有多好。数学上: R ( s , a ) R(s, a) R(s,a) 表示在状态 s s s,执行动作 a a a,得到的奖励。

在找钥匙的例子中:

  • 如果你在正确的地方找到钥匙(比如状态 s 1 s_1 s1,动作 a 1 a_1 a1),你得到正奖励,比如 R ( s 1 , a 1 ) = + 10 R(s_1, a_1) = +10 R(s1,a1)=+10(节省时间)。
  • 如果你去错了地方(比如状态 s 1 s_1 s1,动作 a 2 a_2 a2),你得到负奖励,比如 R ( s 1 , a 2 ) = − 1 R(s_1, a_2) = -1 R(s1,a2)=1(浪费时间)。
  • 在“已找到”状态( s 4 s_4 s4),奖励为0,因为游戏结束。

通俗解释:奖励就像评分系统,告诉你这个动作是好(+分)还是不好(-分)。

3.5 观测集合( Ω \Omega Ω

观测是你通过动作得到的线索。在找钥匙的例子中,假设你检查一个地方后,可能的观测是:

  • o 1 o_1 o1:看到闪光的东西(可能是钥匙,也可能是其他东西)
  • o 2 o_2 o2:什么也没看到
  • o 3 o_3 o3:闻到咖啡味(比如在厨房)

观测集合 Ω \Omega Ω 是所有可能观测的集合: Ω = { o 1 , o 2 , o 3 } \Omega = \{ o_1, o_2, o_3 \} Ω={ o1,o2,o3}

关键点:观测不一定能直接告诉你真实状态。比如,“看到闪光”可能发生在沙发(钥匙)或床头柜(硬币)。

3.6 观测概率(O)

观测概率描述你在某个状态,执行某个动作后,得到某个观测的可能性。数学上: O ( o ∣ s ′ , a ) = P ( o t = o ∣ s t = s ′ , a t − 1 = a ) O(o | s', a) = P(o_t = o | s_t = s', a_{t-1} = a) O(os,a)=P(ot=ost=s,at1=a)

意思是:在状态 s ′ s' s,执行动作 a a a 后,得到观测 o o o 的概率。

在找钥匙的例子中:

  • 假设钥匙在沙发上( s 1 s_1 s<
本研究利用Sen+MK方法分析了特定区域内的ET(蒸散发)趋势,重点评估了使用遥感数据的ET空间变化。该方法结合了Sen斜率估算器和Mann-Kendall(MK)检验,为评估长期趋势提供了稳健的框架,同时考虑了时间变化和统计显著性。 主要过程与结果: 1.ET趋势可视化:研究利用ET数据,通过ET-MK和ET趋势图展示了蒸散发在不同区域的空间和时间变化。这些图通过颜色渐变表示不同的ET水平及其趋势。 2.Mann-Kendall检验:应用MK检验来评估ET趋势的统计显著性。检验结果以二元分类图呈现,标明ET变化的显著性,帮助识别出有显著变化的区域。 3.重分类结果:通过重分类处理,将区域根据ET变化的显著性进行分类,从而聚焦于具有显著变化的区域。这一过程确保分析集中在具有实际意义的发现上。 4.最终输出:最终结果以栅格图和png图的形式呈现,支持各种应用,包括政策规划、水资源管理和土地利用变化分析,这些都是基于详细的时空分析。 ------------------------------------------------------------------- 文件夹构造: data文件夹:原始数据,支持分析的基础数据(MOD16A2H ET数据 宁夏部分)。 results文件夹:分析结果与可视化,展示研究成果。 Sen+MK_optimized.py:主分析脚本,适合批量数据处理和自动化分析。 Sen+MK.ipynb:Jupyter Notebook,复现可视化地图。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱看烟花的码农

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值