综述阅读过程中,发现许多任务卸载算法都涉及了马尔可夫决策过程和马尔可夫链,故记录备忘。
马尔可夫过程
马尔可夫过程是一种随机过程,其中系统的未来状态只取决于当前状态,与过去的历史无关。举个简单的例子:假设一个人在两个城市间往返,分别为城市A和城市B。从城市A到城市B的概率是0.6,从城市B到城市A的概率是0.8。当我们知道这个人现在在城市A时,那么下一步他去城市B的概率就是0.6。此时,我们并不需要知道他之前在哪个城市,也就是说,这个过程具有马尔可夫特性。
马尔可夫决策过程
马尔可夫决策过程(MDP)是一个扩展了马尔可夫过程的数学框架,它包含了状态、动作、转移概率、奖励和折扣因子这五个组成部分。在这个框架下,智能体需要根据当前状态选择一个动作,然后系统会根据转移概率进入下一个状态,并获得相应的奖励。目标是找到一个最优策略,使得长期累积奖励最大化。
举个例子:假设一个机器人正在一个迷宫中寻找宝藏。迷宫有多个位置(状态),机器人可以向上、下、左、右移动(动作)。每次移动,它都有一定概率到达新的位置(转移概率)。当机器人找到宝藏时,它会得到一个正的奖励,走入陷阱则得到一个负的奖励。机器人需要找到一条路径(策略),使其在寻找宝藏的过程中获得最大的长期累积奖励。在这个问题中,马尔可夫决策过程就是用来描述机器人如何在迷宫中搜索宝藏并作出最佳选择的数学模型。
两者区别
马尔可夫过程和马尔可夫决策过程的主要区别在于,马尔可夫过程仅描述了状态之间的随机转换,而马尔可夫决策过程则包含了智能体在每个状态中需要作出的决策、动作、奖励以及长期目标。
举一个贴切的例子:假设我们正在玩一个纸牌游戏。
马尔可夫过程:在这种情况下,纸牌游戏只涉及洗牌和发牌这两个步骤。洗牌后,牌会按照某个概率分布被发给每个玩家。在这里,我们关心的是每个人拿到不同牌型的概率,而与玩家如何进行游戏无关。马尔可夫过程只描述了纸牌从一种组合变成另一种组合的过程。
马尔可夫决策过程:在这种情况下,纸牌游戏不仅包括洗牌和发牌,还包括玩家根据自己手中的牌来选择行动(例如抽牌、弃牌等)。在这里,我们关心的是如何根据当前的牌型作出最佳决策,以便赢得游戏。马尔可夫决策过程包含了玩家如何根据不同牌型作出决策、采取动作以及评估这些行为所带来的收益。
总结一下,马尔可夫过程强调的是状态之间的随机转换,而马尔可夫决策过程则关注于在给定状态下如何做出最佳决策以实现长期目标。
文章索引记录
-
LIN K, LIN B, CHEN X, et al. A time-driven workflow scheduling
strategy for reasoning tasks of autonomous driving in edge environment[C]//IEEE International Conference on Parallel & Distributed
Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking.
Piscataway: IEEE Press, 2019: 124-131. -
LIN C C, DENG D J, YAO C C. Resource allocation in vehicular
cloud computing systems with heterogeneous vehicles and roadside
units[J]. IEEE Internet of Things Journal, 2017, 5(5): 3692-3700. -
NING Z L, DONG P R, WANG X J, et al. Deep reinforcement learning for vehicular edge computing: an intelligent offloading system[J].
ACM Transactions on Intelligent Systems and Technology, 2019,
10(6): 1-24.