文献阅读 - [model-based RL] (4) - [Master Game of Go without Human Knowledge]

概述

Mastering the game of Go without human knowledge
文章时间: Nature 2017
文章的整体思路: 运用 model-based RL + Monte Carlo Tree Search to find the best startegy in Many games.
什么是亮点: AlphaGo已经能够超越人类(不是纯RL,还有很多的专家知识), AlphaZero相比AlphaGo能力更强,而且不需要人类的知识,只需要自己尝试。
特点: MCTS , self-play RL,无专家经验,只使用黑白子的位置作为输入状态, 单神经网络(不区分策略和价值函数)
怎么做的:

摘要

AlphaGo 通过搜索树来评价不同的状态,然后使用神经网络选择移动。神经网络先被人类专家进行监督训练,再使用强化学习进行self.play. 本文我们介绍一种不使用人类数据(除了游戏规则),只使用RL的算法。 AlphaGo成为自己的老师: 神经网络用于预测 AlphaGo自己的下一步以及AlphaGo的胜利者。这种神经网络提升了 树搜索的强项,生成了高质量的移动选择 和 下一次迭代中更强的self-play。 AlphaZero最终和 AlphaGo对战,实现了100:0的成果。

强化学习算法

蒙特拉洛树搜索 (MCTS)
在每一个状态 s s s中, MCTS都会执行。MCTS会生成 比神经网路更好的移动

采用的模型

采用一个neural network模型同时得到 采取每一个动作的概率 和 价值 (在该状态下能赢的概率) ( p , v ) = f ( s ) (p,v)=f(s) (p,v)=f(s)
The vector of move probabilities p: 表示了 每一个动作的概率。
The value v: 评价在此状态 s s s下 获胜的概率。

神经网络模型

包含CNN wtih batch normalization and ReLU 的 卷积层
或者 ResNet

状态

领域知识:

  1. 游戏规则,排除不能走的位置 | 决定每盘棋终止的位置
  2. 输入的特征都是在 19X19的网格中
  3. 围棋的状态与 棋盘的旋转和对称都无关,因此在样本集中会将一个样本变成不同旋转角度/对称的样本(加强训练) ; 在运用MCTS时我们会随机旋转/对称 棋盘。
  4. 对先手和后手同时进行模拟: 输入状态安装当前玩家的视角进行输入。

状态: 17个19X19网格。 19X19表示棋盘的网格位置, 第一个表示19X19 表示自己下的棋子的位置:自己下的位置表示1,其余表示0。 第二个19X19表示 对手棋子的位置。 然后接下来是 自己走过的之前七步的位置 和 对手之前七步的位置(围棋中不能走重复步。)。 最后一个 全是 1 或者 0, 表示 当前是 黑子 还是白字走。

alphaGo zero讲解

不足之处

代码分析

环境分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Color-based model-free tracking is a popular technique used in computer vision to track objects in video sequences. Despite its simplicity, it has demonstrated high accuracy and robustness in various applications, such as surveillance, sports analysis, and human-computer interaction. One of the key advantages of color-based model-free tracking is its real-time performance. Unlike model-based tracking, which requires complex training and computation, color-based tracking can be implemented using simple algorithms that can run in real-time on low-power devices. This makes it suitable for applications that require fast response time, such as robotics and autonomous systems. Another advantage of color-based tracking is its ability to handle occlusions and partial occlusions. Since color features are less sensitive to changes in lighting and viewing conditions, the tracker can still maintain its accuracy even when the object is partially hidden or obstructed by other objects in the scene. Critics of color-based tracking argue that it is not effective in complex scenes where the object of interest may have similar colors to the background or other objects in the scene. However, recent advancements in machine learning and deep learning have enabled the development of more sophisticated color-based tracking algorithms that can accurately detect and track objects even in challenging scenarios. In summary, color-based model-free tracking is a simple yet effective technique for tracking objects in video sequences. Its real-time performance, robustness, and ability to handle occlusions make it a popular choice for various applications. While it may not be suitable for all scenarios, advancements in machine learning are making it more effective in complex scenes.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值