论文笔记
文章平均质量分 91
常喝水
这个作者很懒,什么都没留下…
展开
-
Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours
1. 摘要 当前基于学习的机器人抓取方法利用人类标记的数据集来训练模型。然而,这种方法存在两个问题:(a)由于每个对象都可以通过多种方式掌握,因此手动标记抓取位置并非易事; (b)人类标签受到语义的偏见。虽然已经尝试使用反复试验来训练机器人,但是在这样的实验中使用的数据量仍然非常低,因此使得学习者倾向于过度拟合。在本文中,我们将可用的训练数据增加到先前工作的40倍,从而导致在700小时的机器人抓取...原创 2021-01-08 09:56:49 · 466 阅读 · 0 评论 -
One Pixel Attack for Fooling Deep Neural Networks
摘要: 最近的研究表明,通过向输入向量添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一个极其有限的场景中的攻击,其中只能修改一个像素。 为此,我们提出了一种基于差分进化(DE)生成单像素对抗性扰动的新方法。它需要较少的对抗性信息(黑盒攻击),并且由于DE的固有特性,可以欺骗更多类型的网络。结果表明,CIFAR-10测试数据集中68.36%的自然图像和...原创 2021-01-05 18:56:55 · 185 阅读 · 0 评论 -
Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(VICE)
在基于事件的控制中, 我们用事件替换传统的奖励概念, 事件是表示出现某些所需结果 * (如到达目标位置或保持安全约束) 的二进制随机变量。为了获得控制策略, 我们可以对事件变量进行条件调整, 并对操作执行推理查询。例如, 传统的强化学习最类似于我们对所有时间步骤发生的事件进行条件的查询 (以前的工作见下文 *)。但是, 我们也可以要求模型根据至少在一个时间步长或特定时间步长上发生的事件选择操作...原创 2021-01-05 18:56:07 · 244 阅读 · 0 评论