Self-supervised Reinfocement Learning
郝建业–天津大学
CV例子:
图片分类 旋转 预测角度 得到一些带有label的样本
分块,预测相对位置 (人为构造标签)
总的来讲:它是一个通过自监督的手段,自动生成一些label 转化成监督学习
要素:
目的:
接下来的例子,更加有效的提取特征
右上角 Embedding - Embedding= Embedding
可能会捕捉到跟当前任务无关的
比如 房子和树在路外,对我们都没有影响
光照跟我们无关,只需要关注道路就可以了
左边是DBC,右侧是基于之前提到的对比学习
在状态下做自监督学习
学习状态之间的行为相似性
架构、更新方式和之前的类似
伪代码如下:
具有类似底层机制的语义等价任务的泛化
(跳板子的任务)把两类区分开即 跳板任务 和平行前进任务分开
具体怎么做的?(如下)
以上是两大类比较主流的基于状态的rl
下面是除了状态之外
策略:从状态到行动分配的映射
前半部分是cnn,学习Embedding 后半部分是全馈 做policy
对策略做原始表征的两个方式:
来源策略表示:从策略网络参数中提取策略表示
表面策略表示:从状态动作对(轨迹)中提取策略表示
GPI
之前我们评估:
现在:
把策略本身也嵌入到微网络里面去
策略本身表征也输入到网络中,提升强化学习的样本利用率
目的:极大降低跟环境交换次数
验证如下:
构造正负样本方式
消融:
这是第二大类,从策略
接下来从第三大类,Action(动作表征)
简洁的动作嵌入对于减少策略空间,提供策略和值函数在动作空间上的泛化能力,从而显著加快学习速度具有重要意义
内部政策在行动中嵌入空间定义和函数f地图行动嵌入回到最初的行动空间
下面是19年底icml的一个工作
从st到st+1 , et是动作Embedding 通过f 再映射回action
积分无法梯度求导,引入kl散度,计算P和真实的差距
右边是对policy学习
伪代码:
混合动作
任务/环境做表征
training阶段
testing阶段
验证探索模块的高效性
从感知到计划和控制:自我表征学习是弥合鸿沟的关键。
RL中的自表示学习:状态、策略、动作和任务级别的表示学习可以提高RL跨不同任务的样本效率和策略泛化能力。
未来方向:
策略与环境/任务动态是相互纠缠的:如何将环境表示与策略表示分离?
不同RL元素的表示分别学习:如何将它们组合在一起?
基于模型的RL中的表示学习和MASs中的对手建模
GAN ments RL
这是对我们运用高维复杂概率分布能力的绝佳测试
为规划或模拟RL模拟可能的未来
缺失的数据
为了弥补缺失数据,Semi-supervised学习
多模态输出
现实的一代的任务
GAN
NLP中的鲁棒性
dataset
数据集的建立是很重要的,不能是简单的采样,分割
2 表示
3 模型建模
下面是attention是不一样的,但结果是一样的
为什么bert可以学的非常好
如何评测
在深度学习模型黑盒下任务特性驱动模型设计
鲁棒性提升
FGSM采用梯度提升的方向进行扰动
FGM采用l2正则化进行扰动
PGD 每次都走一小步,走的步数很多,能够更好的达到最优值上
但计算不够高效
在图像上鲁棒性提升,泛化能力会减弱
在文本上用对抗训练,两者都会提升
但在文本上做对抗训练不会太有效
下游任务上怎么使用模型?
进行聚类
但有一些问题
刘知远 如何利用已有的标签
但得到的表示,仍然无法聚类的很好
提出了一个基于关系的
BCE loss
我们可以生成一个特定的扰动,加在所有的图片上都会对结果产生影响
在建模方式上:
关系抽取
因果是解决鲁棒性有效的范式
如何引入是一个难题。
图像领域对抗训练会提高鲁棒性,但泛化能力会降低
在NLP,鲁棒性提升 本身的性能也会提升