Algorithms for Inverse Reinforcement Learning

v [source] ICML

[year] 2000

设计人员只有粗线的概念而不能形成一个良好的回馈函数时

希望能通过一些最优情况找回代价函数

 

1. MDPs 在之前一篇博文中讲过了

Q函数

2.IRL in Finite State Spaces

归为优化

这个优化的形式,使最小中的最大,不由让人想到SVM(事实的确有这样一篇文章)

3. Linear Function Approximation in Large State Spaces

R(s) =\Sum_{i=1}^{d} \alpha_i \phi_i(s)

4. IRL from Sampled Trajectories

此时已经有若干最优轨迹

 

结论:有搞头!

转载于:https://www.cnblogs.com/justin_s/archive/2011/06/04/2072405.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值