一个马尔科夫链实例

最新推荐文章于 2023-11-27 22:06:28 发布

weixin_30861797

最新推荐文章于 2023-11-27 22:06:28 发布

阅读量289

点赞数

文章标签：数据结构与算法

原文链接：http://www.cnblogs.com/robinchen/p/11047547.html

版权

马尔科夫早就了解过，但一直没有真正用马尔科夫的思想求解问题，更没有用到论文中去。

最近发现了一本好书：《Foundations of stochastic inventory theory》，斯坦福大学出版的。这本书不厚，才 200多页，讲的比较清晰，目测比其他库存管理的教材要好，准备精度完这本书。

下面探讨书中的一个马尔科夫实例。

一个零售商面对的顾客有两种状态，
状态 s1：上一个月买过该零售商的商品
状态 s2：上一个月没有买过该零售商的商品

零售商可以做出 3 个决策及对应的决策成本：
决策 a1 ：什么都不做成本：0
决策 a2 ：发礼物，小促销成本：0.5
决策 a3：发礼物，大促销成本：0.5

Initial state s	Action a	Next state1 and possibility pas1	Next state2 and possibility pas2
s1	a1	s1, 0.99	s2, 0.01
s1	a2	s1, 0.93	s2, 0.07
s1	a3	s1, 0.85	s2, 0.15
s2	a1	s1, 0.80	s2, 0.20
s2	a2	s1, 0.72	s2, 0.28
s2	a3	s1, 0.50	s2, 0.50

折现率 α=0.99
有效转移概率 qasj=α∗pasj

若顾客不购买商品，收益为 0；
不促销时，顾客购买商品，收益为 8；
小促销时，顾客购买商品，收益为 7；
大促销时，顾客购买商品，收益为 3；

减去成本，得到的期望即时回报（immediate return）r(s,a) 为：

Initial state s	Action a	Action cost c(a)	Expected immediate return
s1	a1	0	0.99(0.990+0.01*8)-0 = 0.08
s1	a2	0.5	0.99(0.930+0.07*7)-0.5 = -0.01
s1	a3	0.5	0.99(0.850+0.15*3)-0.5 = -0.05
s2	a1	0	0.99(0.80+0.2*8)-0 = 1.6
s2	a2	0.5	0.99(0.720+0.28*7)-0.5 = 1.4
s2	a3	0.5	0.99(0.50+0.5*3)-0.5 = 1

若是单周期决策，从上表可以看出，不论初始状态是什么，最有决策都是 a1，即不促销不发礼物。

若是两阶段决策，则期望回报和需要再算一层。

Initial state s	Action a	Action cost c(a)	Expected immediate return	Expected sum immediate return
s1	a1	0	0.99(0.990+0.01*8)-0 = 0.08	0.08 + 0.99(0.990.08+0.01*1.6)=0.1736
s1	a2	0.5	0.99(0.930+0.07*7)-0.5 = -0.01	-0.01 + 0.99(0.930.08+0.07*1.9)=0.17
s1	a3	0.5	0.99(0.850+0.15*3)-0.5 = -0.05	-0.05+0.99(0.850.08+0.151.6)=0.2
s2	a1	0	0.99(0.80+0.2*8)-0 = 1.6	0.6+0.99(0.850.08+0.151.6)=1.87
s2	a2	0.5	0.99(0.720+0.28*7)-0.5 = 1.4	1.4+0.99(0.850.08+0.151.6)=1.85
s2	a3	0.5	0.99(0.50+0.5*3)-0.5 = 1	1+0.99(0.850.08+0.151.6)=1.75