强化学习-FlappyBird 游戏中的人工智能

对应的视频课程永不坠落的小鸟

人工智能与机器学习

在这里插入图片描述
在这里插入图片描述
人工智能所解决的问题

  • 不是冒泡排序,二分查找
  • Simple for human, difficult for machine
    人工智能
  • Acting like human
  • 图灵测试
    机器学习
  • 人工智能的核心领域
  • 从例子中学习
    机器学习
  • 监督学习 (有标注)
  • 无监督学习 (无标注)
  • 增强学习
    监督学习
    在这里插入图片描述
    在这里插入图片描述

2 增强学习

简介
Reinforce learning,也称为强化学习
动物学习,参数扰动自适应控制等理论发展而来
吃一堑,长一智

分类

时序差分算法
Q学习算法

基本流程

Agent产生一个动作
环境接受该动作后状态改变
同时产生回报反馈给Agent
在这里插入图片描述
在这里插入图片描述
完备信息,非完备信息。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 马尔科夫决策过程

在这里插入图片描述
马尔科夫链

  • 马尔科夫链(Markov Chain),也称为马式链
  • 状态转移图就是一个简单的马尔科夫链
  • 数学定义 P ( X t + 1 = x ∣ X t , X t − 1 , . . . ) = P ( X t + 1 ∣ X t ) P(X_{t+1} = x | X_t,X_{t-1},...) = P(X_{t+1}|X_t) P(Xt+1=xXt,Xt1,...)=P(Xt+1Xt)
  • 转移概率的状态只依赖于前一个状态

马尔科夫决策过程

  • 随机游走
  • 状态转移概率
  • 性质 平稳分布

在这里插入图片描述
平稳分布

  • 转移概率

社会阶层划分 下层 中层 上层
在这里插入图片描述
转移矩阵
在这里插入图片描述
矩阵连乘
在这里插入图片描述
马尔科夫系列产品

  • 马尔科夫决策过程
  • 隐形马尔科夫模型
  • 马尔科夫逻辑网
  • 马尔科夫随机场
  • 马尔科夫毯
  • 马尔科夫蒙特卡洛方法(MCMC)

马尔科夫决策过程
Markov Decision Process,MDP
决策分析、运筹学。控制论和经济学共同关注领域

MDP模型

  • 四元组(S,A,T,R)
  • S 为一个有限集,其中每个元素 s ∈ S s\in S sS 代表一个状态
  • A 为一个有限集,其中每个元素 a ∈ A a\in A aA 代表一个行动
  • T : S × A → T:S\times A \rightarrow T:S×A
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PPO(Proximal Policy Optimization)是一种强化学习算法,可以用于训练游戏AI,如Flappy BirdFlappy Bird是一款简单但具有挑战性的游戏家需要控制小鸟穿过各种障碍物,每穿过一个障碍物就会得分。在PPO,我们可以将小鸟作为智能体,游戏的状态、动作和奖励可以用来训练智能体。 首先,我们需要定义状态空间,即游戏的各种情况,如小鸟的位置、速度、障碍物的位置等。然后,我们需要定义动作空间,即小鸟可以采取的行动,如向上飞或保持不动。最后,我们需要定义奖励函数,用于评估智能体的表现,如每穿过一个障碍物得到一定的奖励,碰到障碍物则得到负奖励。 接下来,我们可以使用PPO算法对智能体进行训练。PPO算法采用策略梯度方法,通过反向传播优化策略网络,使得智能体可以根据当前状态选择最优的动作。 在训练过程,我们可以使用神经网络来表示策略网络,将当前状态作为输入,输出对应的动作概率。然后,我们可以使用采样方法来选择动作,并根据奖励函数计算损失,最后使用梯度下降法更新策略网络。 需要注意的是,训练过程可能会非常耗,需要进行大量的试错和调参。同,为了避免过拟合和局部最优解,我们需要采用一些技巧,如使用多个环境并行训练、添加噪声等。 总之,PPO算法可以用于训练Flappy Bird游戏AI,但需要进行大量的工作和尝试。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值