ML、DL、CNN学习记录8

最新推荐文章于 2024-06-25 10:05:15 发布

翻滚de蛋炒饭

最新推荐文章于 2024-06-25 10:05:15 发布

阅读量647

点赞数

分类专栏： Deep Learning 文章标签： GNN GCN Reinforce

本文链接：https://blog.csdn.net/qq_36739040/article/details/108130418

版权

Deep Learning 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

ML、DL、CNN学习记录7

ML、DL、CNN学习记录7

强化学习（Reinforcement Learning）
图卷积网络/图神经网络（GCN/GNN）
知识图谱（Knowleage Graph）

强化学习

Value- Based
Policy- Based
AC-series
Game: Pacman(DQN)
Game: Snake(DQN)
Game: SuperMariobros(A3C)|

在这里插入图片描述
Action：a1
Episoid：[s1 a1 r1] [s2 a2 r2] …[sT aT rT]

回报: (reward) 是强化学习的核心，是强化学习区别其他机器学习的标志特征。
特点:衡量了智能体在时间t.上做得有多好。智能体的目标就是最大化累计回报。
立即回报:当智能体在时间t做出动作a时，收到的回报R
长期回报(回报值return) :智能体与环境不断交互，会收到回报序列R, R1, Rr+2,…。一种通用的累计回报的方式是将这些回报值进行加权求和: $G_t =R_{t+1}+$ G,=R+1+ yR,+2 +.= >r*R,1+k+1，k= 0
回报值衡量了动作at对未来结果的影响
折扣因子γ(0~1):未来回报在当前时刻的价值比例。在k+1时刻获得的回报R在t时刻体现出的价值是y*R。

Makov

马尔可夫性

马尔可夫决策过程(Markov Decision Processes, MDP)是对强化学习问题的数学描述.
几乎所有的强化学习问题都能用MDP来描述(三步)

建立强化学习的数学模型- -构建马尔可夫决策模型。
求取每个状态s的值函数或策略函数- -评估
获取最优策略π- -改善

如果某一状态信息蕴含了所有相关的历史信息。
只要当前状态可知，所有的历史信息都不再需要。
即当前状态可以决定未来，则认为该状态具有马尔可夫性。

$P(S_{t+1} | S_t)=P(S_{t+1}| S_1,S_2,S_t)$

贝尔曼方程

值函数的表达式可以分解成两部分：立即回报 $R_{t+1}$ 和下一时刻值函数的折扣期望。

贝尔曼方程体现了值函数和其后继值函数的迭代关系

在这里插入图片描述
同样地， $Q_{\pi}(s,a)$ 的贝尔曼期望方程如下:

在这里插入图片描述

在这里插入图片描述
此外，有模型的方法(如DP)比较直观简单，包括策略迭代、值迭代两类方法。

策略迭代：(贝尔曼期望方程的应用)策略评估、策略改进
值迭代：贝尔曼最优方程的应用

探索与利用

探索：尝试一个新的行为,以图挖掘更多的关于环境的信息。
利用：智能体根据己知信息，选取当下最优的行为来最大化回报。

预测与控制
●也叫评估与改进。

预测-评估：评估当前这个策略有多好，求解在既定策略下的状态值函数。
控制-改进：对当前策略不断优化，直到找到-一一个最优策略

广义策略迭代(general ized policy iteration: GPI)

GPI包含两个过程:策略评估和策略改进，两者可以以各种粒度交错进行。 (如:值函数收敛之后进行策略改进，也可以进行–次策略评估之后就开始策略改进)
几乎所有强化学习方法都可以被描述为GPI，是一个普遍的方法。
评估、改进过程稳定，不再发生变化，则得到最优值函数和最优策略。
评估、改进过程可看作竞争与合作的过程，都把对方往相反地方拉，最终得到最优解
直接朝着一个目标会导致远离另-一个目标。联合过程更接近优化总目标

Value-Based

和环境进行交互
值函数：
行为值函数
状态值函数

MC （蒙特卡洛）：基于频率进行估计
SARSA
Q-learning
DQN
Double DQ
Queling QN

知识图谱

实体 Entity
关系 relationship

实体关系三元组

标注工具

图神经网络

图神经网络（Graph Neural Networks，GNN）综述
在这里插入图片描述
一般图像使用矩阵进行表示

人与人之间的关系->加权边的图

在这里插入图片描述
● GNN的类别

GCN： Spectral-based、 Spatial-based
GAT
GAE
GGN
GSTN

● GNN的发展

Graph attention networks:图注意力网络GAT
Graph autoencoders:图自编码GAE
Graph generative networks:图生成网络GGN
Graph spatial-temporal networks:图时空网络GSTN

● 相关研究学习

教程和概述:

关系归纳偏差和图形网络(Battaglia等人， 2018)
图形表示学习:方法和应用(Hamilton等人， 2017)

基于注意的邻域聚集:

图形注意网络(Hoshen, 2017; Velickovic等人， 2018; Liu等人，2018)

嵌入整个图形:

图形带边缘嵌入的神经网络(Battagliaet al., 2016; Gilmer et al., 2017)
嵌入整个图(Duvenaud etal., 2015; Daietal., 2016; Lietal, 2018) 和图池(Ying etal, 2018， Zhang et al，2018)
图生成和关系推理(Youet al，2018; Kipfetal。，2018年)
图神经网络(Xu等人， 2017年)

翻滚de蛋炒饭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML、DL、CNN学习记录8

文章目录ML、DL、CNN学习记录7强化学习Makov贝尔曼方程Value-Based知识图谱ML、DL、CNN学习记录7强化学习（Reinforcement Learning）图卷积网络/图神经网络（GCN/GNN）知识图谱（Knowleage Graph）强化学习Value- BasedPolicy- BasedAC-seriesGame: Pacman(DQN)Game: Snake(DQN)Game: SuperMariobros(A3C)|Action：a1Ep
复制链接

扫一扫

专栏目录