增强学习

1 value iteration

   for  i in max-iteration:

         for j in states:

              v[j] = max(r[j,a] + sum(p(j'|j,a)* v[j'])

2 policy iteration

   for i in max-iteration:

          policy-evaluation

         (迭代计算v [state]直至稳定,采取的action已知)

          policy-improvement

         (依次更新each state对应的action,每次取最优值)


3 model based learning

for i in max-iteration:

    1)follow policy pi, get transition list as history 

    2)  calculate reward, transition probability from history, and get P(state, prob,action,next_state)

    3) update policy using value iteration

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值