强化学习-FlappyBird 游戏中的人工智能

最新推荐文章于 2023-11-26 00:01:08 发布

凌风清羽

最新推荐文章于 2023-11-26 00:01:08 发布

阅读量4.3k

点赞数

分类专栏：机器学习文章标签：强化学习增强学习 Q learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013785405/article/details/88554252

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

对应的视频课程永不坠落的小鸟

人工智能与机器学习

在这里插入图片描述

人工智能所解决的问题

不是冒泡排序，二分查找
Simple for human， difficult for machine
人工智能
Acting like human
图灵测试
机器学习
人工智能的核心领域
从例子中学习
机器学习
监督学习（有标注）
无监督学习（无标注）
增强学习
监督学习

2 增强学习

简介
Reinforce learning，也称为强化学习
动物学习，参数扰动自适应控制等理论发展而来
吃一堑，长一智

分类

时序差分算法
Q学习算法

基本流程

Agent产生一个动作
环境接受该动作后状态改变
同时产生回报反馈给Agent
在这里插入图片描述

完备信息，非完备信息。

3 马尔科夫决策过程

在这里插入图片描述
马尔科夫链

马尔科夫链(Markov Chain)，也称为马式链
状态转移图就是一个简单的马尔科夫链
数学定义 $P(X_{t+1} = x | X_t,X_{t-1},...) = P(X_{t+1}|X_t)$
转移概率的状态只依赖于前一个状态

马尔科夫决策过程

随机游走
状态转移概率
性质平稳分布

在这里插入图片描述
平稳分布

转移概率

社会阶层划分下层中层上层
在这里插入图片描述
转移矩阵

矩阵连乘

马尔科夫系列产品

马尔科夫决策过程
隐形马尔科夫模型
马尔科夫逻辑网
马尔科夫随机场
马尔科夫毯
马尔科夫蒙特卡洛方法（MCMC）

马尔科夫决策过程
Markov Decision Process，MDP
决策分析、运筹学。控制论和经济学共同关注领域

MDP模型

四元组（S,A,T,R）
S 为一个有限集，其中每个元素 $s\in S$ 代表一个状态
A 为一个有限集，其中每个元素 $a\in A$ 代表一个行动
$T:S\times A \rightarrow$

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
强化学习-FlappyBird 游戏中的人工智能

对应的视频课程永不坠落的小鸟人工智能与机器学习人工智能所解决的问题不是冒泡排序，二分查找Simple for human， difficult for machine人工智能Acting like human图灵测试机器学习人工智能的核心领域从例子中学习机器学习监督学习（有标注）无监督学习（无标注）增强学习监督学习增强学习简介Reinforce l...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。