强化学习
AI_SFly
喜欢一行行代码最后呈现的缤纷世界,我为代码狂!
展开
-
强化学习原著翻译
[TOC] 很久没写博客了,准备记录下自己翻译强化学习原著的过程,入坑开始。1.1强化学习强化学习是一种学习如何把状态映射到动作,并获得奖励的学习机制。学习者不会被告知该采取什么行为,但是取而代之的是通过尝试这些动作去发现什么动作会获得最大的奖励。在一些比较有趣和富有挑战性的案例中,动作不仅仅会影响立即的奖励并且会影响接下来的状态,并且通过接下来的状态,会影响到随后而来的奖励。强化学习最...原创 2018-05-22 13:26:04 · 1169 阅读 · 0 评论 -
强化学习原著翻译(续)
强化学习采用了相反的行动,学习的开始带有一个复杂的,具有交互的,寻求目标的智能体。所有的强化学习智能体都有明确的目标,可以感知他们环境的部分,并且可以选择行动去影响它的环境。此外,通常假定智能体一开始面对环境时没有确切的行动。当强化学习包含计划,它就显示出计划时实时行动选择的内在关联性,正如环境模型如何获得和改善的问题。当强化学习涉及监督式学习时,它会根据具体的原因确定哪些能力是关键的,哪些不是。...原创 2018-05-23 08:58:57 · 1001 阅读 · 0 评论 -
强化学习原著翻译Chapter_2
多臂摇奖机2.1 k-臂摇奖机问题多臂摇奖机强化学习最重要的特征是它利用训练信息去评估执行的动作而不是通过正确的动作教育怎么执行动作。这是创造积极探索的需要,以明确寻找良好的行为。纯粹的评估反馈指示了执行动作的好处,但是并没有显示这个动作是好的还是坏的的可能性。另一方面,存粹的教育反馈指示了去执行正确的行为。独立与实际是否执行行为。这种反馈是监督学习的基础,包含了模式识别...原创 2018-05-24 10:13:01 · 430 阅读 · 0 评论