Robot learning

最新推荐文章于 2021-08-15 16:13:43 发布

Zahen

最新推荐文章于 2021-08-15 16:13:43 发布

阅读量525

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_42202657/article/details/104466704

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Physics Representation Learning 学习理解世界

state representation

1、所谓的state，或者说状态，机器人对于自身和环境的描述，机器人自身的state可能用关节角度表示，而外界环境可能包含object bounding box，6-DOF pose。state通常作为连接perception模块和planning & control 模块的桥梁。在经典的robot manipulation中，视觉感知基本上就是pose estimation，motion planner和controller假设物体的geometric template和6-DOF pose已知。自动驾驶中，对外界的感知大概是object detection，这里的object包括了行人，汽车，路标等。

2、当机器人需要处理复杂，开放，unstructured环境时，state representation就成为了问题。一种直观的方法是：假设“房间”里所有物体都是已知的，这样的话用一个6 DOF pose集合就可以表示“房间”的状态，这也是nvidia和TRI目前的方法。它的局限性也是很明显的：无法处理未知的物体。

3、computer vision和robotics是有明显区别的。在vision里，数据一般不是问题，但在robotic里数据收集是复杂，昂贵甚至危险的；同时，大部分vision task都没有安全性问题，但很多的机器人都是safety critical的。

4、deep rl学者当然也意识到了这个问题，在他们的语言里，这个问题的本质是"the autonomous agent lacks prior knowledge"。人类在完成“整理房间”时，并不需要重新学习如何控制自己的手臂。而deep rl方法只能learn from scratch：类比人类的话，这相当于对每个不同的任务，都要从什么都不知道的婴儿开始学习，最后成长为这个任务的大师，这显然是不scalable的。

5、本质上讲，所谓"incorporate prior"就是一种信息输入。对于两个相似但是不同的task，它们的knowledge representation中必然有很多信息是相同的。那么，当agent学习如何"整理房间"时，最好首先告诉它如何使用自己的手臂。然而这就回到了state representation，或者更广义的说knowledge representation上的问题。当state representation不可解释(not human interpretable)，信息输入非常困难。

6、human-crafted feature 也可以理解成一种信息输入。human-crafted feature本质上把所有的信息分为两类：1）可以解释的，和task相关的信息；与2）和task无关的信息。例如，为了让机器人整理房间，我们用一个6 DOF object pose集合就可以表示“房间”的状态。那么，每个物体的pose就是和task相关的信息，而object的颜色，图案之类就是和task无关的信息。这样的话，我们就引入和prior information：给定object pose后，我们也许可以用planner和controller解决“整理房间”，而这些planner和controller当然是先验的，通用的；同时，哪些信息和task无关本身就是一种先验知识，在deep rl和vision中为了得到这些先验知识需要巨大的数据量。

World Modelling

描述代表移动机器人环境的常用方法，对于通常使用二维表示形式存储的室内环境，讨论了occupancy grids，line maps，topological maps,和landmark-based representations，这些技术各有其优缺点。同时占用网格地图允许快速访问，可以有效地更新，线形地图更紧凑。此外，基于陆地的地图可以有效地更新和维护，但是，它们不像拓扑表示法那样容易支持路径规划等导航任务。此外，我们还讨论了适合户外地形建模的方法。在室外环境中，许多室内环境测绘技术所采用的平面假设已不再有效。在这种情况下，一种非常流行的方法是高程和变体地图，它们将地形表面存储在一个规则间隔的网格上。这种地图的替代品是点云、网格或三维网格，它们提供了更大的灵活性，但有更高的存储需求。

Scene Understanding

场景理解主要关注的是：1、scene object retrieval场景目标检索

2、outdoor scene segmentation 室外场景分割

3、RGB-D 3D object detection RGB3D目标检测

4、saliency prediction显著性预测

户外场景理解(面向自动驾驶领域)包括几个子任务：

1、深度估计

2、场景分类

3、目标检测和跟踪

4、事件分类

例：基于光流的异常运动检测

1. 光流分析、目标检测 -> 本车运动与异常运动

2. 分析路径和边界

对图像进行分割，学习语义标签和运动状态。

视觉场景理解可表述为在环境数据感知的基础上,结合视觉分析与图像处理识别等技术手段,从计算统计、行为认知以及语义等不同角度挖掘视觉数据中的特征与模式,从而实现场景有效分析、认知与表达.近年来结合数据学习与挖掘、生物认知特征和统计建模方法构建的视觉场景认知理解系统。

例：scene understanding for robots grasping

抓握物体的技能是人类的一项主要技能。然而，尽管多年的研究，机器人抓取物体，即。目前的机器人仍然无法自动理解场景、定位物体、确定抓取参数，如抓取手的开口尺寸、抓取力,例如，基于场景理解的对象实例分割，抓取位置预测，主要基于通过模拟数据的深度机器学习，赋予抓取机器人人类的视觉能力。

神经网络框架下的远距离自适应多尺度(DaM)卷积，它被用来实现深度不变特征提取。我还将描述在随机森林框架中学习内核的无约束特性和权值、形状和稀疏性的过程。两种方法都在语义分割任务中得到了验证。

Concept Learning

1、概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数，这里假设并限定了目标函数是布尔函数。这是一个由特殊向一般的过程。

2、如果把概念学习看做是一个搜索过程，范围是假设的表示所隐含定义的整个空间。搜索的目标就是为了寻找能最好地拟合训练样例的假设。

3、概念学习就是学习把具有共同属性的事物集合在一起并冠以一个名称，把不具有此类属性的事物排除出去。学习的过程具有排他性。由此，也可以看出为什么ML中的概念学习总表示为一个布尔函数（排他性，不是即非啊）。

Find-S算法

Common Sense

小冰写诗的时候就发现，她写出来的诗有时候比较歪，有时候也不通，其实就是缺少common sense（常识），她写的时候很云里雾里，就发现她写的太玄了，太玄的原因就是有些common sense她没有考虑进去。

common sense就有点像GAN里面的判别模型。区分是真实样本，还是不是真实样本。

先验知识：common sense 或者expertise knowledge

关于状态随时间和事件而变的知识
关于并发事件的结果的知识
关于物体在空间中的生灭及其位置和形状变化的知识
关于表示和利用知识的知识
关于知识、信念、目标、爱好、意图、能力的表示的知识
关于科学知识的常识性知识

特点：

共享的 (Share)，常识知识是被人们（或某一群人）所共享的。
基础的 (Fundamentality)，人们觉得这些常识是理所当然的。
隐含的 (Implicitness)，通常人们不会明确的说出常识，因为其他人也知道。
大规模的 (Large-Scale)，常识的数量与多样性都非常的大。
开放域 (Open-Domain)，常识涵盖了我们日常生活的方方面面，而不是特定领域。
默认的 (Default)，常识是有关日常生活中典型案例的默认假设，但不是绝对正确的假设

目前流行的 Deep learning 方法本质上是基于统计的，找到的多是共现（co-occurrence）或者相关（correlation）的关系，而难以抽取或者学习到因果（causality）关系，无法真正理解常识。

Reinforcement Learning 学习与世界交互

world models

NIPS 2018 oral representation的论文之一，

我们的世界模型能够以一种快速的无监督学习方式，学习一个压缩的空间和时间的环境表示（Environment Representation）。通过使用从世界模型中提取的特征作为智能体的输入，我们可以训练出一个非常紧凑、简单的策略来解决所需的任务。我们甚至可以将智能体完全训练在由它的世界模型所产生的幻想的环境（own dream environment）中，并将这一策略转移到真实世界的环境中。

既然模型的规模主要受奖励分配的搜索空间限制，而更大、更复杂的模型主要优势在于学习环境，因此，可不可以将模型拆开呢？让一个较大的复杂模型专门负责学习环境，不涉及奖励分配问题，同时让一个较小的模型执行任务，这样较大的复杂模型就不会影响奖励分配的搜索空间，而较小模型可以通过“询问”较大模型，获取对环境的理解，从而更好地学习。

1、大型的world model，建模环境

包含两部分，视觉组件用来编码视觉信息，记忆组件，基于历史信息预测未来的编码。

视觉组件是基于VAE（自动编码器）实现，将视频帧编码为低维的潜向量。

记忆组件，基于循环神经网络(LSTM)实现，预测视觉组件未来生成的潜向量。

2、小型的controller model，学习执行任务

Multi-sensory

Multi-Sensory Semi-Supervised Robotic Autonomous Navigation

基于多感官设计的新型半监督模仿学习解决方案，以最大限度地减少人为监督并避免在机器人自主导航中手动标记数据。这是综合传感器融合和模仿学习的工作，无需人工监督即可在现实世界中实现机器人自主导航。

Computer Vision 基础技能

domain adaptation

我们往往假设训练集和测试集分布一致，在训练集上训练模型，在测试集上测试。然而在实际问题中，测试场景往往非可控，测试集和训练集分布有很大差异，这时候就会出现所谓过拟合问题：模型在测试集上效果不理想。

当训练集和测试集分布不一致的情况下，通过在训练数据上按经验误差最小准则训练的模型在测试上性能不好，因此出现了迁移学习技术。

领域自适应（Domain Adaptation）是迁移学习中的一种代表性方法，指的是利用信息丰富的源域样本来提升目标域模型的性能。

源域和目标域往往属于同一类任务，但是分布不同。

根据目标域和源域的不同类型，领域自适应问题有四类不同的场景：无监督的，有监督的，异构分布和多个源域问题。

通过在不同阶段进行领域自适应，研究者提出了三种不同的领域自适应方法：1）样本自适应，对源域样本进行加权重采样，从而逼近目标域的分布。2）特征层面自适应，将源域和目标域投影到公共特征子空间。3）模型层面自适应，对源域误差函数进行修改，考虑目标域的误差。

现实世界当中这个问题又分为不同的类型：1）边缘分布相同，条件分布不同且相关2）边缘分布不同且相关，条件分布相同3）边缘分布和条件分布都不同且相关。
下边就稍微介绍一下边缘分布，条件分布:所谓边缘分布就是数据在特征空间当中的分布，如果你不理解特征空间这个词，把它理解为数据分布就好。可能还会有人问现实当中数据分布很抽象，你怎么知道几万张图片，它们的分布是怎样的？这个问题是初入坑必须要搞明白的，衡量图像我们也是通过特征（例如，haar特征，梯度，颜色直方图等等），将图像特征量化成数字，分布就能看出来了，所以记住我们讨论分布的前提是我们已经确定用哪种特征来衡量数据。同样条件分布就是某个确定样本的分类概率分布了，如果是二分类问题，那么此条件分布就看作一个伯努利分布，其他情况以此类推。

Instance reweighting和subspace learning是Domain adaptation中两种经典的学习策略，前者对source data每一个样本加权，学习一组权使得分布差异最小化，后者则是转换到一个新的共享样本空间上，使得两者的分布相匹配。另外比较重要的的一点是，实际训练当中，“最小化分布差异”这个约束条件是放在目标函数中和最小化误差一起优化的，而不是单独优化。

Quantisation Network

Pose Estimation

Zahen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Robot learning

Physics Representation Learning 学习理解世界state representation1、所谓的state，或者说状态，机器人对于自身和环境的描述，机器人自身的state可能用关节角度表示，而外界环境可能包含object bounding box，6-DOF pose。state通常作为连接perception模块和planning & control...
复制链接

扫一扫