强化学习处理影像文献阅读二（4-6）

早上睡觉下午睡觉晚上不睡觉

已于 2023-12-04 10:01:28 修改

阅读量78

点赞数

文章标签：人工智能 transformer 学习

于 2023-12-01 11:30:08 首次发布

本文链接：https://blog.csdn.net/qq_59782617/article/details/134693882

版权

第四篇：2021基于三维时空U-Net的强化学习视频摘要

Video summarization through reinforcement learning with a 3D spatio-temporal u-net

作者：Tianrui Liu

目的：利用时空信息实现视频摘要。

方法：用于视频摘要的3DST-UNet-RL框架。利用三维时空U-Net对输入视频的时空信息进行高效编码，用于下游强化学习。RL代理从时空潜在分数中学习，并预测在视频摘要中保留或拒绝视频帧的动作。视频摘要框架由三个主要部分组成:用于视频特征提取的具有3D卷积的时空CNN, 3D时空U-Net (3DST-UNet)和RL代理网络。视频特征提取网络从视频帧序列中输出时空特征。然后将这些特征组合并输入到3DST-UNet中，这可以进一步对视频序列中的空间和时间关系进行建模。3DST-UNet之后是一个Sigmoid层，为输入视频的每一帧生成分数。基于这些分数，RL代理的网络采取行动来决定是否为摘要选择一个帧。

网络框架图

数据集：SumMe、TVSum、OVP、Yoube和超声视频

特别地：用于序列建模的3DST-UNet具有一次处理整个视频序列的优点。

不足：使用了3D网络，计算量大大增加，但效果与DR-DSN相差不大，只提高了1%

结果：设计的网络58.3%结果高于其他网络。

注：学习指数8

第五篇：2022 StARformer:具有状态-动作-奖励表征的视觉强化学习transformer

Starformer: Transformer with state-action-reward representations for visual reinforcement learning

作者：Jinghuan Shang

目的：使用强化学习处理计算机视觉问题

方法：首先通过在短时间窗口内自参与图像状态补丁、动作和奖励来提取特征表示。然后将它们与纯图像状态表示相结合——提取为卷积特征，在整个序列上执行自关注。Step Transformer通过在单个时间步长窗口内参与状态-动作-奖励来学习本地表示(即star表示)。图像状态被编码为类似于vit[18]的patch，保留了细粒度的空间信息。然后，序列转换器将star表示与来自整个序列的纯图像状态表示(作为卷积特征提取)结合起来进行动作预测。

数据集：基于图像的Atari(离散动作空间)和DeepMind Control Suite (DMC)(连续动作空间)在不同类型的任务中评估模型

特别地：强化学习讲叙得比较清楚，该方法主要运用在游戏方面，看不懂，只看懂introduction

注：学习指数7.9

第六篇：从视频中学习识别强化学习的关键状态

Learning to identify critical states for reinforcement learning from videos

作者：Haozhe Liu

目的：良好策略的算法信息可以从缺乏关于执行行为的明确信息的离线数据中提取，例如，人类或机器人的视频可能传达了许多关于奖励行动序列的隐含信息，但想要从观看此类视频中获利的DRL机器必须首先自己学习识别和识别相关状态/行动/奖励。故该研究目的是获取强化学习的关键中的关键状态。

方法：网络结构包括一个返回预测器和一个临界状态检测器。前者预测给定视觉轨迹的智能体的返回，而后者在视觉轨迹上学习mask，其中非mask帧足以准确预测返回。训练技术明确地最小化临界状态的数量，以避免冗余信息通过一个新的损失函数。如果预测器可以使用一小组帧达到相同的性能，则认为这些帧是关键的。使用mask，获得了一个表示轨迹中状态重要性的等级，允许选择具有高分的关键状态。在推理过程中，可以直接检测临界状态，而不依赖于返回预测器的存在。临界状态检测器在Si上输出mi，mi越大概率就越大。

特别地：该网络能够学习出强化学习的关键状态

结果：从视频的情节中识别关键状态，并了解关键状态的重要性。该方法优于在分析环境中识别关键状态的可比方法。

注：学习指数8

早上睡觉下午睡觉晚上不睡觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习处理影像文献阅读二（4-6）

视频摘要框架由三个主要部分组成:用于视频特征提取的具有3D卷积的时空CNN, 3D时空U-Net (3DST-UNet)和RL代理网络。使用mask，获得了一个表示轨迹中状态重要性的等级，允许选择具有高分的关键状态。目的：良好策略的算法信息可以从缺乏关于执行行为的明确信息的离线数据中提取，例如，人类或机器人的视频可能传达了许多关于奖励行动序列的隐含信息，但想要从观看此类视频中获利的DRL机器必须首先自己学习识别和识别相关状态/行动/奖励。结果：从视频的情节中识别关键状态，并了解关键状态的重要性。
复制链接

扫一扫