qq_37970624-CSDN博客

原创一个特殊例子：井字棋

对于价值函数，“井字棋”的例子中，对于每一个游戏状态（不同棋盘状态）构建一个价值函数表格V(st)，值函数V(st)表示了对获胜概率的估计。这是一个3*3的井字棋，如果智能体实现三个子连在一起，则当前状态获胜概率为1，如果对方三个子连在一起，则该状态的获胜概率为0，其余状态的初始价值都为0.5.利用价值函数的差分更新公式每个贪心动作（获胜概率最高的动作）过后，对早先的状态的价值进行更新，这样每个状态的价值都会收到后面状态的价值的影响，即将最后获得的高价值向前面经历过的状态进行信度分配，通过实验表

2022-02-12 21:49:33 742

原创《Reinforcement Learning : An Introduction》第一章习题解答

1.1 左右互搏假设上面的强化学习算法不是对战随机对手，而是以左右互博的方式与自己对战来训练自己。你认为在这种情况下会发生怎样的事情？它是否学习到不同的策略？答：和与一个固定对手相比，会学习到一个不同的策略，因为在学习过程中对手也在不断变化。因为对手也在不断变化，所以可能无法学到最佳策略，也可能会卡在循环里。从平均角度而言，策略可能保持静态不变。1.2 对称性由于对称性，井字棋的很多位置看起来不同但其实是相同的。我们如何利用这一点来修改上面提到的学习过程呢？这种改变会怎样改善学习过程

2022-02-12 21:21:59 2202

原创强化学习与进化优化的关系？

在上一篇博客中介绍过：强化学习既代表了一类问题，同时也是解决这类问题的一种机器学习范式，但是它和进化优化算法或者其他优化算法之间有什么样的关系呢？强化学习的核心是就是对价值函数的评估，也就是说强化学习的核心就是计算价值函数。既然如此，我们也可以用进化优化算法来计算其价值函数。从狭义角度看，强化学习算法也可以看做是优化算法。这里有必要辨析一下进化算法和强化学习算法的差异及各自适用范围：进化优化算法包含遗传算法、遗传规划等等，主要特点是无需显式计算价值函数（这点与强化学习不同，强化学习是需要显式计算

2022-02-10 17:43:03 1096

原创强化学习的特征？

许多书上都回答过这个问题，基本答案都是——“试错”和“延迟回报”是强化学习两个最重要的特征。但是这里从更高的层次来看待这个问题，或许会给我们不同的启示~~其中最重要的就是强化学习的“整体性”这一特征。强化学习明确考虑了目标导向的智能体与不确定的环境交互的整个问题。与其他机器学习方法不同，比如监督学习只关注模型的构建，规划理论只强调了规划的实现，没有考虑实时决策的过程等等，这些机器学习方法都是关注的子问题，而非“整体性”。强化学习则是从一个完整性、交互式、目标导向的智能体出发，当然这只是其整体框架

2022-02-10 12:18:01 3468

原创强化学习是一个优化算法吗？

强化学习到底是什么？一个学习算法？一个优化算法？或者是一类问题的总称？虽然我也一直从事强化学习领域的科研工作，但是这个问题确实今天才得到清晰的回答。强化学习即表示一类问题，也是一类解决这种问题的方法，同时还是一个研究此问题及其解决方法领域。首先，是哪一类问题呢？其实就是针对“不完全可知的马尔科夫决策过程”的最优控制问题。马尔科夫决策过程是其形式化描述。“不完全可知”就是这个马尔科夫决策过程模型，我们是不知道的，或者叫model-free的。第二，适用于解决这类问题（“不完全可知的马尔科夫决策..

2022-02-10 11:13:16 708

原创《reinforcement learning ——an introduction second edition》

我们近些年反复听到强化学习、深度强化学习、阿尔法狗等名词，这些概念已经在人工智能领域越来越普及。由于深度强化学习越来越实用化，进而产生出了巨大的产业技术红利，越来越多的人们关注的是如何应用这些技术，而不是冷静思考这些技术深层次的理论基础；如火如荼的产业应用使研究者们对未来人工智能的未来走向尤为担忧，开始关注与联结主义的经典深度学习不同的人工智能范式探索。2021年12月17日，焦李成教授提出：“神经网络不应该是目前的意义上进行权重调参，它的结构应该具备变化性、可塑性、学习性和动态性；在类脑感知的过程中，

2022-02-10 10:10:49 552

原创 Continual and Multi-task Reinforcement Learning With Shared Episodic Memory

1 引言人类和其他动物使用情景记忆来快速适应复杂的环境(Kumaran et al.， 2016;Lake等人，2017;麦克莱伦等人，1995)。动物行为的一个显著特征是能够在同一环境中实现几个不同的目标。在强化学习领域，自适应行为得到了积极的研究(Rusu et al.， 2015;Chaplot等人，2017;Teh et al.， 2017;Oh等人，2016;P...

2020-03-18 08:29:41 380

qq_37970624的博客