Self-supervised Reinfocement Learning
郝建业–天津大学
CV例子:

图片分类 旋转 预测角度 得到一些带有label的样本
分块,预测相对位置 (人为构造标签)

总的来讲:它是一个通过自监督的手段,自动生成一些label 转化成监督学习



要素:

目的:


接下来的例子,更加有效的提取特征

右上角 Embedding - Embedding= Embedding
可能会捕捉到跟当前任务无关的

比如 房子和树在路外,对我们都没有影响
光照跟我们无关,只需要关注道路就可以了

左边是DBC,右侧是基于之前提到的对比学习
在状态下做自监督学习
学习状态之间的行为相似性

架构、更新方式和之前的类似
伪代码如下:

具有类似底层机制的语义等价任务的泛化

(跳板子的任务)把两类区分开即 跳板任务 和平行前进任务分开
具体怎么做的?(如下)

以上是两大类比较主流的基于状态的rl
下面是除了状态之外
策略:从状态到行动分配的映射


前半部分是cnn,学习Embedding 后半部分是全馈 做policy
对策略做原始表征的两个方式:
来源策略表示:从策略网络参数中提取策略表示
表面策略表示:从状态动作对(轨迹)中提取策略表示

GPI
之前我们评估:
现在:
把策略本身也嵌入到微网络里面去
策略本身表征也输入到网络中,提升强化学习的样本利用率
目的:极大降低跟环境交换次数
验证如下:

构造正负样本方式

消融:

这是第二大类,从策略
接下来从第三大类,Action(动作表征)

简洁的动作嵌入对于减少策略空间,提供策略和值函数在动作空间上的泛化能力,从而显著加快学习速度具有重要意义
内部政策在行动中嵌入空间定义和函数f地图行动嵌入回到最初的行动空间
下面是19年底icml的一个工作

从st到st+1 , et是动作Embedding 通过f 再映射回action
积分无法梯度求导,引入kl散度,计算P和真实的差距
右边是对policy学习
伪代码:


混合动作



任务/环境做表征





training阶段

testing阶段


验证探索模块的高效性


从感知到计划和控制:自我表征学习是弥合鸿沟的关键。
RL中的自表示学习:状态、策略、动作和任务级别的表示学习可以提高RL跨不同任务的样本效率和策略泛化能力。
未来方向:
策略与环境/任务动态是相互纠缠的:如何将环境表示与策略表示分离?
不同RL元素的表示分别学习:如何将它们组合在一起?
基于模型的RL中的表示学习和MASs中的对手建模
GAN ments RL


这是对我们运用高维复杂概率分布能力的绝佳测试
为规划或模拟RL模拟可能的未来
缺失的数据
为了弥补缺失数据,Semi-supervised学习
多模态输出
现实的一代的任务


GAN




NLP中的鲁棒性

dataset






数据集的建立是很重要的,不能是简单的采样,分割
2 表示



3 模型建模



下面是attention是不一样的,但结果是一样的

为什么bert可以学的非常好

如何评测


在深度学习模型黑盒下任务特性驱动模型设计
鲁棒性提升


FGSM采用梯度提升的方向进行扰动
FGM采用l2正则化进行扰动
PGD 每次都走一小步,走的步数很多,能够更好的达到最优值上

但计算不够高效
在图像上鲁棒性提升,泛化能力会减弱
在文本上用对抗训练,两者都会提升

但在文本上做对抗训练不会太有效




下游任务上怎么使用模型?
进行聚类

但有一些问题
刘知远 如何利用已有的标签

但得到的表示,仍然无法聚类的很好
提出了一个基于关系的

BCE loss

我们可以生成一个特定的扰动,加在所有的图片上都会对结果产生影响


在建模方式上:
关系抽取



因果是解决鲁棒性有效的范式
如何引入是一个难题。
图像领域对抗训练会提高鲁棒性,但泛化能力会降低
在NLP,鲁棒性提升 本身的性能也会提升
2887

被折叠的 条评论
为什么被折叠?



