NLPCC2021.10.14

All in .

于 2021-12-23 17:01:04 发布

阅读量1.5k

点赞数

分类专栏：会议报告笔记文章标签：深度学习机器学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunshine_10/article/details/120803912

版权

会议报告笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Self-supervised Reinfocement Learning

郝建业–天津大学

CV例子：

图片分类旋转预测角度得到一些带有label的样本

分块，预测相对位置（人为构造标签）

总的来讲：它是一个通过自监督的手段，自动生成一些label 转化成监督学习

要素：

目的：

接下来的例子，更加有效的提取特征

右上角 Embedding - Embedding= Embedding

可能会捕捉到跟当前任务无关的

比如房子和树在路外，对我们都没有影响

光照跟我们无关，只需要关注道路就可以了

左边是DBC，右侧是基于之前提到的对比学习

在状态下做自监督学习

学习状态之间的行为相似性

架构、更新方式和之前的类似

伪代码如下：

具有类似底层机制的语义等价任务的泛化

（跳板子的任务）把两类区分开即跳板任务和平行前进任务分开

具体怎么做的？（如下）

以上是两大类比较主流的基于状态的rl

下面是除了状态之外

策略:从状态到行动分配的映射

前半部分是cnn，学习Embedding 后半部分是全馈做policy

对策略做原始表征的两个方式：

来源策略表示:从策略网络参数中提取策略表示

表面策略表示:从状态动作对(轨迹)中提取策略表示

GPI

之前我们评估：

现在：

把策略本身也嵌入到微网络里面去

策略本身表征也输入到网络中，提升强化学习的样本利用率

目的：极大降低跟环境交换次数

验证如下：

构造正负样本方式

消融：

这是第二大类，从策略

接下来从第三大类，Action（动作表征）

简洁的动作嵌入对于减少策略空间，提供策略和值函数在动作空间上的泛化能力，从而显著加快学习速度具有重要意义

内部政策在行动中嵌入空间定义和函数f地图行动嵌入回到最初的行动空间

下面是19年底icml的一个工作

从st到st+1 ， et是动作Embedding 通过f 再映射回action

积分无法梯度求导，引入kl散度，计算P和真实的差距

右边是对policy学习

伪代码：

混合动作

任务/环境做表征

training阶段

testing阶段

验证探索模块的高效性

从感知到计划和控制:自我表征学习是弥合鸿沟的关键。

RL中的自表示学习:状态、策略、动作和任务级别的表示学习可以提高RL跨不同任务的样本效率和策略泛化能力。

未来方向：

策略与环境/任务动态是相互纠缠的:如何将环境表示与策略表示分离?

不同RL元素的表示分别学习:如何将它们组合在一起?

基于模型的RL中的表示学习和MASs中的对手建模

GAN ments RL

这是对我们运用高维复杂概率分布能力的绝佳测试

为规划或模拟RL模拟可能的未来

缺失的数据

为了弥补缺失数据，Semi-supervised学习

多模态输出

现实的一代的任务

GAN

NLP中的鲁棒性

dataset

数据集的建立是很重要的，不能是简单的采样，分割

2 表示

3 模型建模

下面是attention是不一样的，但结果是一样的

为什么bert可以学的非常好

如何评测

在深度学习模型黑盒下任务特性驱动模型设计

鲁棒性提升

FGSM采用梯度提升的方向进行扰动

FGM采用l2正则化进行扰动

PGD 每次都走一小步，走的步数很多，能够更好的达到最优值上

但计算不够高效

在图像上鲁棒性提升，泛化能力会减弱

在文本上用对抗训练，两者都会提升

但在文本上做对抗训练不会太有效

下游任务上怎么使用模型？

进行聚类

但有一些问题

刘知远如何利用已有的标签

但得到的表示，仍然无法聚类的很好

提出了一个基于关系的

BCE loss

我们可以生成一个特定的扰动，加在所有的图片上都会对结果产生影响

在建模方式上：

关系抽取

因果是解决鲁棒性有效的范式

如何引入是一个难题。

图像领域对抗训练会提高鲁棒性，但泛化能力会降低

在NLP，鲁棒性提升本身的性能也会提升

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
NLPCC2021.10.14

NLPCC会议
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

All in . 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。