强化学习
文章平均质量分 78
JerryLife
Stay young,stay foolish.
展开
-
通过简单的强化学习实现井字棋(Tic-Tac-Toe)
一、强化学习简介强化学习的过程可以理解为Agent与Environment的交互、学习、进步的过程,在井字棋中,可以简单的将其中的一方理解为Agent,另一方为Environment。交互的过程中主要有一下4个要素:状态(state):指可能出现的情况或局面,在井字棋中指局面上的落子情况与先后手。操作(action):指从一个状态(state)到另一个状态(state)的过程,在井字棋...原创 2018-08-03 13:33:22 · 9676 阅读 · 10 评论 -
强化学习之多臂老虎机(Multi-Armed-Bandit)问题
一、问题背景假设有一个老虎机有 nnn 个握把,每个握把 iii 有 PiPiP_i 的概率可以中奖,每次可以选择一个握把进行尝试,老虎机只会返回是否中奖。尝试者不知道中奖概率,需要通过有策略的尝试,选出中奖概率最高的那一个握把。二、问题抽象共有 nnn 个arm,每个arm的成功概率为 PiPiP_i 玩家可以对每个arm进行尝试,每次尝试后,若成功则得到1,若失败则得到0。玩家...原创 2018-08-08 10:58:46 · 7228 阅读 · 2 评论