- 博客(6)
- 收藏
- 关注
原创 Reinforcement Learning with Deep Energy-Based Policies
摘要:我们提出了一种方法,用于学习连续状态和动作的基于能量的表达策略,这在以前的表格域中是可行的。 我们将我们的方法应用于学习最大熵策略,从而产生一种称为软Q学习的新算法,该算法通过玻尔兹曼分布表达最优策略。 我们使用最近提出的斯坦因变分梯度下降来学习随机抽样网络,该网络近似于该分布的样本。 所提出的算法的好处包括改进的探索和组合性,允许在任务之间转移技能,我们在游泳和步行机器人的模拟实验中确认...
2021-01-08 09:57:05
1119
原创 Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours
1. 摘要 当前基于学习的机器人抓取方法利用人类标记的数据集来训练模型。然而,这种方法存在两个问题:(a)由于每个对象都可以通过多种方式掌握,因此手动标记抓取位置并非易事; (b)人类标签受到语义的偏见。虽然已经尝试使用反复试验来训练机器人,但是在这样的实验中使用的数据量仍然非常低,因此使得学习者倾向于过度拟合。在本文中,我们将可用的训练数据增加到先前工作的40倍,从而导致在700小时的机器人抓取...
2021-01-08 09:56:49
466
原创 One Pixel Attack for Fooling Deep Neural Networks
摘要: 最近的研究表明,通过向输入向量添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,我们分析了一个极其有限的场景中的攻击,其中只能修改一个像素。 为此,我们提出了一种基于差分进化(DE)生成单像素对抗性扰动的新方法。它需要较少的对抗性信息(黑盒攻击),并且由于DE的固有特性,可以欺骗更多类型的网络。结果表明,CIFAR-10测试数据集中68.36%的自然图像和...
2021-01-05 18:56:55
185
原创 Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition(VICE)
在基于事件的控制中, 我们用事件替换传统的奖励概念, 事件是表示出现某些所需结果 * (如到达目标位置或保持安全约束) 的二进制随机变量。为了获得控制策略, 我们可以对事件变量进行条件调整, 并对操作执行推理查询。例如, 传统的强化学习最类似于我们对所有时间步骤发生的事件进行条件的查询 (以前的工作见下文 *)。但是, 我们也可以要求模型根据至少在一个时间步长或特定时间步长上发生的事件选择操作...
2021-01-05 18:56:07
244
原创 JjjdQpvEAM
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Ma...
2019-12-17 15:52:56
63
转载 CNN卷积网络
@CNN卷积神经网络学习 基础CNN知识讲解 卷积原理 吴恩达deeplearning之CNN—卷积神经网络入门 介绍卷积和池化的原理过程讲解的很形象 链接: link. 卷积神经网络整体知识 卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。这些良好的性能是网络在有监督方式下学会的,网络的结构主要有稀疏连接和权值共享两个特点,...
2018-11-11 15:08:06
135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人