对应的视频课程永不坠落的小鸟
人工智能与机器学习
人工智能所解决的问题
- 不是冒泡排序,二分查找
- Simple for human, difficult for machine
人工智能 - Acting like human
- 图灵测试
机器学习 - 人工智能的核心领域
- 从例子中学习
机器学习 - 监督学习 (有标注)
- 无监督学习 (无标注)
- 增强学习
监督学习
2 增强学习
简介
Reinforce learning,也称为强化学习
动物学习,参数扰动自适应控制等理论发展而来
吃一堑,长一智
分类
时序差分算法
Q学习算法
基本流程
Agent产生一个动作
环境接受该动作后状态改变
同时产生回报反馈给Agent
完备信息,非完备信息。
3 马尔科夫决策过程
马尔科夫链
- 马尔科夫链(Markov Chain),也称为马式链
- 状态转移图就是一个简单的马尔科夫链
- 数学定义 P ( X t + 1 = x ∣ X t , X t − 1 , . . . ) = P ( X t + 1 ∣ X t ) P(X_{t+1} = x | X_t,X_{t-1},...) = P(X_{t+1}|X_t) P(Xt+1=x∣Xt,Xt−1,...)=P(Xt+1∣Xt)
- 转移概率的状态只依赖于前一个状态
马尔科夫决策过程
- 随机游走
- 状态转移概率
- 性质 平稳分布
平稳分布
- 转移概率
社会阶层划分 下层 中层 上层
转移矩阵
矩阵连乘
马尔科夫系列产品
- 马尔科夫决策过程
- 隐形马尔科夫模型
- 马尔科夫逻辑网
- 马尔科夫随机场
- 马尔科夫毯
- 马尔科夫蒙特卡洛方法(MCMC)
马尔科夫决策过程
Markov Decision Process,MDP
决策分析、运筹学。控制论和经济学共同关注领域
MDP模型
- 四元组(S,A,T,R)
- S 为一个有限集,其中每个元素 s ∈ S s\in S s∈S 代表一个状态
- A 为一个有限集,其中每个元素 a ∈ A a\in A a∈A 代表一个行动
- T : S × A → T:S\times A \rightarrow T:S×A→