强化学习初窥----- open AI

open AI: 马斯克
AGI:通用人工智能
The best way to predict the future is to invent it.

Gym :强化学习的基本对象:

环境:ENV,问题,状态空间,行动空间,奖励,状态转移模型。
智能体:AI 算法

步骤:

初始化环境:
循环:
    按照策略行动
    环境变化,获取反馈
    学习(更新策略)

https://gym.openai.com/docs/#getting-started-with-gym

GYM 学习伪代码:

    强化学习伪代码:
    游戏的结束:是以失败为指示。
        Env.reset()
        while not don
            action = Agent.policy(Env.state)
            reward, newState,done= Env.step(action)
            Agent.learn(state,action,reward)
            env.render() # 画图
            Save(s,ar,news) to memory
            if train:
                Batch =Memory.sample()//随机取
                QNet.
            state = newState

Q学习:
原始问题:在状态S,采取哪个行动?
采取期望最高的行动
从一张表Q(s,a)中获取
怎么计算Q表?
随机初始化,然后不停尝试,根据会报更新Q表。
所以状态的更新和学习是同步进行的。

怎么尝试?
    随机行动, 贪婪行动----->e贪婪行动(折中)

Q学习怎么更新Q表?
Q(st,at)=Q(st,at)+@[r+ymaxQ(st+1,a)-Q(st,at)]
@:学习率
学习目标:r+ymaxQ(st+1,a):当前会报+下一状态最大回报。
不停迭代,直到Q表收敛。

之后的每次就可以严格依据Q表。

Q学习的局限性:Q(s,a) 10^170(围棋的状态空间), dota的状态空间(10^1000+)
s->(s,a)映射, 深度神经网络(监督学习)
解决:使用神经网络拟合出Q表。

DQN:
从深度学习的角度看:
强化学习是收集数据,训练神经网络。

1.怎么喂数据? 经验回放策略<s,a,r,news> -> memory,
Memory.sample()随机获取经验。
keras, tensorflow 计算框架。

2. r+ymaxQ(st+1,a),目标频繁更新,异步目标更新策略。
    更新Q,maxQ(不跟额更新) ,每隔一定步长执行maxQ=Q
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值