剑魄未改的博客

“就凭你提着把破剑也想闯荡江湖?”

强化学习导论(Reinforcement Learning:An Introduction)学习笔记(六)

强化学习导论

1.6小结

转载自:https://blog.csdn.net/thousandsofwind/article/details/79775711
好吧,没得看了,后面的又得自己翻译了○| ̄|_

强化学习是一种理解和自动进行目标导向学习和决策的计算方法。它与其他计算方法不同之处在于它强调了代理与环境的直接交互学习,而不依赖于监督或完整的环境模型。在我们看来,强化学习是第一个认真处理在学习与环境的互动时产生的计算问题,以实现长期目标的第一个领域。

​ 强化学习使用马尔可夫决策过程的正式框架来定义学习代理与其环境之间的交互作用,包括状态、动作和收益。这个框架用简单的方法来表示人工智能问题的基本特征。这些特征包括因果性、不确定性和不确定性,以及目标的存在性。

​ 价值和价值函数的概念是我们在本书中所考虑的大多数强化学习方法的主要特征。我们认为,在政策空间中,价值函数对于有效搜索是非常重要的。价值函数的使用区分了强化学习方法和在整个策略的标量评估指导下搜索策略空间的进化方法。

阅读更多
上一篇强化学习导论(Reinforcement Learning:An Introduction)学习笔记(五)
下一篇Linux内核模块编程(列出系统中所有内核线程的程序名、PID 号、进程状态及进程优先级、父进程的PID)
想对作者说点什么? 我来说一句

强化学习 reinforcement learning

2010年10月22日 14.31MB 下载

没有更多推荐了,返回首页

关闭
关闭