NLPCC2021.10.14

Self-supervised Reinfocement Learning

郝建业–天津大学

CV例子:

image-20211014105147402

图片分类 旋转 预测角度 得到一些带有label的样本

分块,预测相对位置 (人为构造标签)

image-20211014105306787

总的来讲:它是一个通过自监督的手段,自动生成一些label 转化成监督学习

image-20211014105539761

image-20211014105618708

image-20211014105810888

要素:

image-20211014105903625

目的:

image-20211014110059075

image-20211014110152652

接下来的例子,更加有效的提取特征

image-20211014110502302

右上角 Embedding - Embedding= Embedding

可能会捕捉到跟当前任务无关的

image-20211014110820466

比如 房子和树在路外,对我们都没有影响

光照跟我们无关,只需要关注道路就可以了

image-20211014110945535

左边是DBC,右侧是基于之前提到的对比学习

在状态下做自监督学习

学习状态之间的行为相似性

image-20211014111051557

架构、更新方式和之前的类似

伪代码如下:

image-20211014111448607

具有类似底层机制的语义等价任务的泛化

image-20211014111544472

(跳板子的任务)把两类区分开即 跳板任务 和平行前进任务分开

具体怎么做的?(如下)

image-20211014111913673

以上是两大类比较主流的基于状态的rl

下面是除了状态之外

策略:从状态到行动分配的映射

image-20211014112353151

image-20211014112416433

前半部分是cnn,学习Embedding 后半部分是全馈 做policy

对策略做原始表征的两个方式:

来源策略表示:从策略网络参数中提取策略表示

表面策略表示:从状态动作对(轨迹)中提取策略表示

image-20211014112656935

GPI

之前我们评估:

现在:

把策略本身也嵌入到微网络里面去

策略本身表征也输入到网络中,提升强化学习的样本利用率

目的:极大降低跟环境交换次数

验证如下:

image-20211014113148833

构造正负样本方式

image-20211014113416513

消融:

image-20211014113600925

这是第二大类,从策略

接下来从第三大类,Action(动作表征)

image-20211014113707597

简洁的动作嵌入对于减少策略空间,提供策略和值函数在动作空间上的泛化能力,从而显著加快学习速度具有重要意义

内部政策在行动中嵌入空间定义和函数f地图行动嵌入回到最初的行动空间

下面是19年底icml的一个工作

image-20211014114012170

从st到st+1 , et是动作Embedding 通过f 再映射回action

积分无法梯度求导,引入kl散度,计算P和真实的差距

右边是对policy学习

伪代码:

image-20211014114606682

image-20211014114523155

混合动作

image-20211014114804991

image-20211014115019556

image-20211014115145892

任务/环境做表征

image-20211014115344617

image-20211014115407385

image-20211014115740362

image-20211014120038617

image-20211014120237133

training阶段

image-20211014120414166

testing阶段

image-20211014120512277

image-20211014120608948

验证探索模块的高效性

image-20211014120623401

image-20211014120706277

从感知到计划和控制:自我表征学习是弥合鸿沟的关键。

RL中的自表示学习:状态、策略、动作和任务级别的表示学习可以提高RL跨不同任务的样本效率和策略泛化能力。

未来方向:

策略与环境/任务动态是相互纠缠的:如何将环境表示与策略表示分离?

不同RL元素的表示分别学习:如何将它们组合在一起?

基于模型的RL中的表示学习和MASs中的对手建模

GAN ments RL

image-20211014143209774

image-20211014141912184

这是对我们运用高维复杂概率分布能力的绝佳测试

为规划或模拟RL模拟可能的未来

缺失的数据

为了弥补缺失数据,Semi-supervised学习

多模态输出

现实的一代的任务

image-20211014142354751

image-20211014143155441

GAN

image-20211014143234153

image-20211014143518086

image-20211014143534826

image-20211014143851531

NLP中的鲁棒性

image-20211014155310477

dataset

image-20211014155505912

image-20211014155519733

image-20211014155730512

image-20211014155741820

image-20211014155904324

image-20211014160021556

数据集的建立是很重要的,不能是简单的采样,分割

2 表示

image-20211014160504353

image-20211014160533204

image-20211014161151659

3 模型建模

image-20211014161224342

image-20211014161413403

image-20211014161712102

下面是attention是不一样的,但结果是一样的

image-20211014161841943

为什么bert可以学的非常好

image-20211014161920003

如何评测

image-20211014162521305

image-20211014163852130

在深度学习模型黑盒下任务特性驱动模型设计

鲁棒性提升

image-20211014164059361

image-20211014164226740

FGSM采用梯度提升的方向进行扰动

FGM采用l2正则化进行扰动

PGD 每次都走一小步,走的步数很多,能够更好的达到最优值上

image-20211014164521564

但计算不够高效

在图像上鲁棒性提升,泛化能力会减弱

在文本上用对抗训练,两者都会提升

image-20211014164923478

但在文本上做对抗训练不会太有效

image-20211014165136354

image-20211014170248268

image-20211014170409145

image-20211014170547376

下游任务上怎么使用模型?

进行聚类

image-20211014170736990

但有一些问题

刘知远 如何利用已有的标签

image-20211014170910568

但得到的表示,仍然无法聚类的很好

提出了一个基于关系的

image-20211014170945655

BCE loss

image-20211014171055855

我们可以生成一个特定的扰动,加在所有的图片上都会对结果产生影响

image-20211014171750450

image-20211014171340458

在建模方式上:

关系抽取

image-20211014171925899

image-20211014172159817

image-20211014172500702

因果是解决鲁棒性有效的范式

如何引入是一个难题。

图像领域对抗训练会提高鲁棒性,但泛化能力会降低

在NLP,鲁棒性提升 本身的性能也会提升

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

All in .

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值