贝叶斯课后习题(四)决策中的收益、损失与效用

决策中的收益、损失与效用

  1. 这里行动集是{大、中、小},状态集是{畅销、一般、知晓}

    1. ( 大 中 小 100 50 10 畅 销 30 40 9 一 般 − 60 − 20 6 滞 销 ) \left(\begin{array}{cc}大&中&小\\100&50&10&畅销\\30&40&9&一般\\-60&-20&6&滞销\end{array}\right) 10030605040201096
    2. max ⁡ a min ⁡ θ ( Q ( θ , a ) ) = 6 \max_a\min_{\theta}(Q(\theta,a))=6 maxaminθ(Q(θ,a))=6,选择 a 3 a_3 a3
    3. max ⁡ a max ⁡ θ ( Q ( θ , a ) ) = 100 \max_a\max_{\theta}(Q(\theta,a))=100 maxamaxθ(Q(θ,a))=100,选择 a 1 a_1 a1
    4. max ⁡ a ( 0.8 max ⁡ θ ( Q ( θ , a ) ) + 0.2 min ⁡ θ ( Q ( θ , a ) ) ) = 68 \max_a(0.8\max_{\theta}(Q(\theta,a))+0.2\min_{\theta}(Q(\theta,a)))=68 maxa(0.8maxθ(Q(θ,a))+0.2minθ(Q(θ,a)))=68,选择 a 1 a_1 a1
  2. 很简单,直接算

    1. max ⁡ a max ⁡ θ ( Q ( θ , a ) ) = 35 \max_a\max_{\theta}(Q(\theta,a))=35 maxamaxθ(Q(θ,a))=35,选择 a 1 a_1 a1
    2. max ⁡ a min ⁡ θ ( Q ( θ , a ) ) = 17 \max_a\min_{\theta}(Q(\theta,a))=17 maxaminθ(Q(θ,a))=17,选择 a 2 a_2 a2
    3. max ⁡ a ( 0.7 max ⁡ θ + 0.3 min ⁡ θ ) = 29.6 \max_a(0.7\max_{\theta}+0.3\min_{\theta})=29.6 maxa(0.7maxθ+0.3minθ)=29.6,选择 a 1 a_1 a1
  3. $Q(a_1)=0.6100+0.330+(-60)0.1=63\$
    $Q(a_2)=0.6
    50+0.340+(-20)0.1=40\$
    $Q(a_3)=0.6
    10+0.3
    9+6*0.1=9.3\$
    选择 a 1 a_1 a1

  4. 慢慢算,别急

    1. 状态集$\Theta=卖掉的花{5,6,7,8,9,10}\$
      行动集 A = 采 几 束 花 5 , 6 , 7 , 8 , 9 , 10 A=采几束花{5,6,7,8,9,10} A=5,6,7,8,9,10

    2. 收益函数$Q(\theta,a)=\begin{cases}5a&a\le\theta\5\theta-(a-\theta)&a>\theta\end{cases}\$
      ( 5 6 7 8 9 10 25 24 23 22 21 20 5 25 30 29 28 27 26 6 25 30 35 34 33 32 7 25 30 35 40 39 38 8 25 30 35 40 45 44 9 25 30 35 40 45 50 10 ) \left(\begin{array}{cc}5&6&7&8&9&10\\25&24&23&22&21&20&5\\25&30&29&28&27&26&6\\25&30&35&34&33&32&7\\25&30&35&40&39&38&8\\25 &30&35&40&45&44&9\\25&30&35&40&45&50&10\end{array}\right) 52525252525256243030303030723293535353582228344040409212733394545102026323844505678910

    3. max ⁡ a min ⁡ θ ( Q ) = 25 \max_a\min_{\theta}(Q)=25 maxaminθ(Q)=25,选择 a 1 a_1 a1

    4. 这是函数

      $H(a_1)=25\$
      $H(a_2)=30-6a\$
      $H(a_3)=35-12a\$
      $H(a_4)=40-18a\$
      $H(a_5)=45-24a\$
      $H(a_6)=50-30a\$

  5. 损失矩阵:

    ( 5 6 7 8 9 10 0 1 2 3 4 5 5 5 0 1 2 3 4 6 10 5 0 1 2 3 7 15 10 5 0 1 2 8 20 15 10 5 0 1 9 25 20 15 10 5 0 10 ) \left(\begin{array}{cc}5&6&7&8&9&10\\0&1&2&3&4&5&5\\5&0&1&2&3&4&6\\10&5&0&1&2&3&7\\15&10&5&0&1&2&8\\20&15&10&5&0&1&9\\25&20&15&10&5&0&10\end{array}\right) 505101520256105101520721051015832105109432105105432105678910

    $H(a_1)=0.060+0.095+0.1510+0.415+0.220+0.125=14.45\$
    $H(a_2)=0.061+0.090+0.155+0.410+0.215+0.120=9.81\$
    $H(a_3)=0.062+0.091+0.150+0.45+0.210+0.115=5.71\$
    $H(a_4)=0.063+0.092+0.151+0.40+0.25+0.110=2.51\$
    $H(a_5)=0.064+0.093+0.152+0.41+0.20+0.15=1.71\$
    $H(a_1)=0.065+0.094+0.153+0.42+0.21+0.10=2.11\$
    取最小,选择 a 5 a_5 a5

  6. 直接写
    ( 0 3025 6050 0 1505 3010 1836 918 0 ) \left(\begin{array}{cc}0&3025&6050\\0&1505&3010\\1836&918&0\end{array}\right) 00183630251505918605030100

  7. 直接写
    ( 150 50 − 100 − 100 200 200 50 100 0 ) \left(\begin{array}{cc}150&50&-100\\-100&200&200\\50&100&0\end{array}\right) 15010050502001001002000

  8. 可知,行动集为{买多少个零件},状态集为{多少个零件坏了}

    1. $W(\theta,a)=\begin{cases}250a&\theta\le a\750\theta-500\alpha&\theta>a\end{cases}\$
    2. L ( θ , a ) = max ⁡ a L − L = { 250 ( a − θ ) θ ≤ a 500 ( θ − a ) θ > a L(\theta,a)=\max_a{L}-L=\begin{cases}250(a-\theta)&\theta\le a\\500(\theta-a)&\theta>a\end{cases} L(θ,a)=maxaLL={250(aθ)500(θa)θaθ>a
    3. 要查表
  9. 定义行动集为$\Theta={\theta_1(0,0.1),\theta_2(0.1,0.2),\theta_3(0.2,1)}\$
    定义行动集为 A = { a 1 , a 2 } A=\{a_1,a_2\} A={a1,a2}
    可有$Q=\left(\begin{array}{cc}a_1&a_2\100&40&\theta_1\30&40&\theta_2\-50&40&\theta_3\end{array}\right)\$
    因此可有
    $Q(a_1)=\int_0{0.1}100Be(2,4)d\theta+\int_{0.1}{0.2}30Be(2,4)d\theta+\int_{0.2}{1}(-50)Be(2,4)d\theta=47.9\Q(a_2)=\int_0{0.1}40Be(2,4)d\theta+\int_{0.1}{0.2}40Be(2,4)d\theta+\int_{0.2}{1}40Be(2,4)d\theta=40\$
    可以看到,应该选择第一种

  10. 有两个行动,所以需要两个损失函数
    18 + 20 θ = − 12 + 25 θ 18+20\theta=-12+25\theta 18+20θ=12+25θ
    θ = 6 \theta=6 θ=6
    L ( θ , a 1 ) = { 0 θ ≤ 6 5 θ − 30 θ > 6 L(\theta,a_1)=\begin{cases}0&\theta\le6\\5\theta-30&\theta>6\end{cases} L(θ,a1)={05θ30θ6θ>6
    L ( θ , a 2 ) = { 30 − 5 θ θ ≤ 6 0 θ > 6 L(\theta,a_2)=\begin{cases}30-5\theta&\theta\le6\\0&\theta>6\end{cases} L(θ,a2)={305θ0θ6θ>6
    π ( θ ) = 1 10 \pi(\theta)=\frac1{10} π(θ)=101
    求积分可有
    E [ L ( a 1 ) ] = ∫ 0 6 1 10 ∗ 0 d θ + ∫ 6 10 1 10 ∗ ( 5 θ − 30 ) d θ = 4 E [ L ( a 2 ) ] = ∫ 0 6 1 10 ∗ ( 30 − 5 θ ) d θ + ∫ 6 10 1 10 ∗ 0 d θ = 9 E[L(a_1)]=\int_0^6\frac1{10}*0d\theta+\int_6^{10}\frac1{10}*(5\theta-30)d\theta=4\\E[L(a_2)]=\int_0^6\frac1{10}*(30-5\theta)d\theta+\int_6^{10}\frac1{10}*0d\theta=9 E[L(a1)]=061010dθ+610101(5θ30)dθ=4E[L(a2)]=06101(305θ)dθ+6101010dθ=9
    可有最优行动为 m i n = 4 min=4 min=4,取行动 a 1 a_1 a1

  11. E ( L ( θ , a ) ) = ∫ Θ L ( θ , a ) π ( θ ) d θ = ∫ Θ ( θ − a ) 2 π ( θ ) d θ E(L(\theta,a))=\int_{\Theta}L(\theta,a)\pi(\theta)d\theta=\int_{\Theta}(\theta-a)^2\pi(\theta)d\theta E(L(θ,a))=ΘL(θ,a)π(θ)dθ=Θ(θa)2π(θ)dθ
    这是怎么整出来的。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值