ML、DL、CNN学习记录7
强化学习(Reinforcement Learning)
图卷积网络/图神经网络(GCN/GNN)
知识图谱(Knowleage Graph)
强化学习
- Value- Based
- Policy- Based
- AC-series
- Game: Pacman(DQN)
- Game: Snake(DQN)
- Game: SuperMariobros(A3C)|
Action:a1
Episoid:[s1 a1 r1] [s2 a2 r2] …[sT aT rT]
- 回报: (reward) 是强化学习的核心,是强化学习区别其他机器学习的标志特征。
- 特点:衡量了智能体在时间t.上做得有多好。智能体的目标就是最大化累计回报。
- 立即回报:当智能体在时间t做出动作a时,收到的回报R
- 长期回报(回报值return) :智能体与环境不断交互,会收到回报序列R, R1, Rr+2,…。一种通用的累计回报的方式是将这些回报值进行加权求和: G t = R t + 1 + G_t =R_{t+1}+ Gt=Rt+1+G,=R+1+ yR,+2 +.= >r*R,1+k+1,k= 0
- 回报值衡量了动作at对未来结果的影响
- 折扣因子γ(0~1):未来回报在当前时刻的价值比例。在k+1时刻获得的回报R在t时刻体现出的价值是y*R。
Makov
马尔可夫性
- 马尔可夫决策过程(Markov Decision Processes, MDP)是对强化学习问题的数学描述.
- 几乎所有的强化学习问题都能用MDP来描述(三步)
- 建立强化学习的数学模型- -构建马尔可夫决策模型。
- 求取每个状态s的值函数或策略函数- -评估
- 获取最优策略π- -改善
- 如果某一状态信息蕴含了所有相关的历史信息。
- 只要当前状态可知,所有的历史信息都不再需要。
- 即当前状态可以决定未来,则认为该状态具有马尔可夫性。
P ( S t + 1 ∣ S t ) = P ( S t + 1 ∣ S 1 , S 2 , S t ) P(S_{t+1} | S_t)=P(S_{t+1}| S_1,S_2,S_t) P(St+1∣St)=P(St+1∣S1,S2,St)
贝尔曼方程
值函数的表达式可以分解成两部分:立即回报 R t + 1 R_{t+1} Rt+1和下一时刻值函数的折扣期望。
贝尔曼方程体现了值函数和其后继值函数的迭代关系
同样地,
Q
π
(
s
,
a
)
Q_{\pi}(s,a)
Qπ(s,a)的贝尔曼期望方程如下:
此外,有模型的方法(如DP)比较直观简单,包括策略迭代、值迭代两类方法。
- 策略迭代:(贝尔曼期望方程的应用)策略评估、策略改进
- 值迭代:贝尔曼最优方程的应用
探索与利用
- 探索:尝试一个新的行为,以图挖掘更多的关于环境的信息。
- 利用:智能体根据己知信息,选取当下最优的行为来最大化回报。
预测与控制
●也叫评估与改进。
- 预测-评估:评估当前这个策略有多好,求解在既定策略下的状态值函数。
- 控制-改进:对当前策略不断优化,直到找到-一一个最优策略
广义策略迭代(general ized policy iteration: GPI)
- GPI包含两个过程:策略评估和策略改进,两者可以以各种粒度交错进行。 (如:值函数收敛之后进行策略改进,也可以进行–次策略评估之后就开始策略改进)
- 几乎所有强化学习方法都可以被描述为GPI,是一个普遍的方法。
- 评估、改进过程稳定,不再发生变化,则得到最优值函数和最优策略。
- 评估、改进过程可看作竞争与合作的过程,都把对方往相反地方拉,最终得到最优解
直接朝着一个目标会导致远离另-一个目标。联合过程更接近优化总目标
Value-Based
和环境进行交互
值函数:
行为值函数
状态值函数
MC (蒙特卡洛):基于频率进行估计
SARSA
Q-learning
DQN
Double DQ
Queling QN
知识图谱
实体 Entity
关系 relationship
实体关系三元组
图神经网络
图神经网络(Graph Neural Networks,GNN)综述
一般图像使用矩阵进行表示
人与人之间的关系->加权边的图
● GNN的类别
- GCN: Spectral-based、 Spatial-based
- GAT
- GAE
- GGN
- GSTN
● GNN的发展
- Graph attention networks:图注意力网络GAT
- Graph autoencoders:图自编码GAE
- Graph generative networks:图生成网络GGN
- Graph spatial-temporal networks:图时空网络GSTN
● 相关研究学习
- 教程和概述:
- 关系归纳偏差和图形网络(Battaglia等人, 2018)
- 图形表示学习:方法和应用(Hamilton等人, 2017)
- 基于注意的邻域聚集:
- 图形注意网络(Hoshen, 2017; Velickovic等人, 2018; Liu等人,2018)
- 嵌入整个图形:
- 图形带边缘嵌入的神经网络(Battagliaet al., 2016; Gilmer et al., 2017)
- 嵌入整个图(Duvenaud etal., 2015; Daietal., 2016; Lietal, 2018) 和图池(Ying etal, 2018, Zhang et al,2018)
- 图生成和关系推理(Youet al,2018; Kipfetal。 ,2018年)
- 图神经网络(Xu等人, 2017年)