强化学习

一、强化学习(Reinforcement Learning):

可以应用于不同领域:神经科学、心理学、计算机科学、工程领域、数学、经济学等

强化学习的特点: 没有监督数据、只有奖励信号 奖励信号不一定是实时的,很可能是延后的,甚至延后很多 时间(序列)是一个重要因素 当前的行为影响后续接收到的数据

强化学习有广泛的应用:游戏AI,推荐系统,机器人仿真,投资管理,发电站控制

二、基本概念:

个体,Agent,学习器的角色,也称为智能体

环境,Environment,Agent之外一切组成的、与之交互的事物

动作,Action,Agent的行为

状态,State,Agent从环境获取的信息

奖励,Reward,环境对于动作的反馈

策略,Policy,Agent根据状态进行下一步动作的函数 状态转移概率,Agent做出动作后进入下一状态的概率

四个重要的要素:状态(state)、动作(action)、策略(policy)、奖励(reward)

三、Markov状态
指马尔可夫性质的随机变量序列X1,X2,...,Xn的当前状态,过去状态和未来状态

给定当前状态,将来状态和过去状态是相互独立的,即t+1时刻系统状态的概率分布只与t时刻的状态有关,与t时刻以前的状态无关

从t时刻到t+1时刻的状态转移与t的值无关

马尔可夫链模型可以表示为=(S,P,Q)

S是系统所有可能的状态所组成的状态集(也称为状态空间)

P是状态转移矩阵

Q是系统的初始概率分布,

四、强化学习Agent分类

1、策略网络:

任何游戏,玩家的输入被认为是行为a,每个输入(行为)导致一个不同的输出,这些输出称为游戏的状态s

可以得到一个不同状态-行动的配对的列表 S包括了策略网络中的所有策略

比如,在游戏中输入a1导致状态s1(向上移动),输入a2会导致状态s2(向下移动)

策略网络就是,对于给定的输入,通过学习给出一个确定输出的网络: (动作1,状态1),(动作2,状态2)

2、价值网络(数值网络):

通过计算目前状态s的累积分数的期望,

价值网络给游戏中的状态赋予一个分数(数值),每个状态都经历了整个数值网络

奖励更多的状态,会在数值网络中的数值Value更大 这里的奖励是奖励期望值,我们会从状态集合中选择最优的

V :价值期望

3、策略网络与价值网络:

策略网络的输出,是一个落子的概率分布

比如,棋盘中现在轮到白棋走,蓝点代表成为下一手的可能性。123456789代表前九位的选点

价值网络的输出,一个可能获胜的数值,即“价值”,这个价值训练是一种回归(regression),即调整网络的权重来逼近每一种棋局真实的输赢预测

对于价值网络,当前局面的价值=对终局的估计

五、强化学习问题

首先把要解决的问题转化成为一个环境(environment)

状态空间(state space):对于围棋来说,每一个棋盘布局(记为s)就是一个状态,所有可能的棋盘布局就是状态空间

动作空间(action space):对于围棋来说,所有可能落子的位置就是一个动作空间

可行动作(available action): 给定一个棋盘,哪里可以落子,哪里不可以

状态转化:下棋之后,对手可能会下的棋。如果是两个Alpha Zero对弈的话,相互是对方环境的一个部分

奖励函数:下棋之后得到的信号反馈。在围棋里面,就是胜率的一个正函数。胜率越大,奖励越大

六、AlphaGO Zero策略:

落子概率也称为策略(policy)

有了落子概率,简单的方式是直接按照这个概率进行落子 =>这会导致神经网络原地踏步,因为Policy Value Network的训练数据是自我对弈(self-play)

仅仅自己学习自己是不会有改进的,需要有一个办法来利用值函数的信息来优化这个策略

在AlphaGo系列算法里面是使用蒙特卡洛树搜索(MCTS)来进行策略优化的

MCTS的输出     是根据值函数V得到的一个更优策略,它将被用于通过self-play来生成数据供深度神经网络学习

MCTS是AlphaGo能够通过self-play不断变强的重要原因

七、利用MCTS(蒙特卡洛搜索树)实现策略评估

在每个状态s处,都会执行蒙特卡洛搜索树给出的策略,直到最终棋局结束

根据棋局的输赢会得到奖励 z 值

棋局的输赢是由当前策略决定的 => 将奖励值 z 当成是当前策略的评估

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值