强化学习-FlappyBird 游戏中的人工智能

对应的视频课程永不坠落的小鸟

人工智能与机器学习

在这里插入图片描述
在这里插入图片描述
人工智能所解决的问题

  • 不是冒泡排序,二分查找
  • Simple for human, difficult for machine
    人工智能
  • Acting like human
  • 图灵测试
    机器学习
  • 人工智能的核心领域
  • 从例子中学习
    机器学习
  • 监督学习 (有标注)
  • 无监督学习 (无标注)
  • 增强学习
    监督学习
    在这里插入图片描述
    在这里插入图片描述

2 增强学习

简介
Reinforce learning,也称为强化学习
动物学习,参数扰动自适应控制等理论发展而来
吃一堑,长一智

分类

时序差分算法
Q学习算法

基本流程

Agent产生一个动作
环境接受该动作后状态改变
同时产生回报反馈给Agent
在这里插入图片描述
在这里插入图片描述
完备信息,非完备信息。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 马尔科夫决策过程

在这里插入图片描述
马尔科夫链

  • 马尔科夫链(Markov Chain),也称为马式链
  • 状态转移图就是一个简单的马尔科夫链
  • 数学定义 P ( X t + 1 = x ∣ X t , X t − 1 , . . . ) = P ( X t + 1 ∣ X t ) P(X_{t+1} = x | X_t,X_{t-1},...) = P(X_{t+1}|X_t) P(Xt+1=xXt,Xt1,...)=P(Xt+1Xt)
  • 转移概率的状态只依赖于前一个状态

马尔科夫决策过程

  • 随机游走
  • 状态转移概率
  • 性质 平稳分布

在这里插入图片描述
平稳分布

  • 转移概率

社会阶层划分 下层 中层 上层
在这里插入图片描述
转移矩阵
在这里插入图片描述
矩阵连乘
在这里插入图片描述
马尔科夫系列产品

  • 马尔科夫决策过程
  • 隐形马尔科夫模型
  • 马尔科夫逻辑网
  • 马尔科夫随机场
  • 马尔科夫毯
  • 马尔科夫蒙特卡洛方法(MCMC)

马尔科夫决策过程
Markov Decision Process,MDP
决策分析、运筹学。控制论和经济学共同关注领域

MDP模型

  • 四元组(S,A,T,R)
  • S 为一个有限集,其中每个元素 s ∈ S s\in S sS 代表一个状态
  • A 为一个有限集,其中每个元素 a ∈ A a\in A aA 代表一个行动
  • T : S × A → T:S\times A \rightarrow T:S×A
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值