伯克利提出AdaSearch:一种用于自适应搜索的逐步消除方法

在机器学习领域的诸多任务当中,我们通常希望能够立足预先给定的固定数据集找出问题的答案。然而,在某些应用场景下我们并没有先验数据可供参考; 相反,我们必须自行收集数据以回答那些自己感兴趣的问题。举例来说,这种情况在环境污染物监测以及人口普查类调查中就比较常见。自行收集数据的方式,使得我们能够将注意力集中在相关度最高的信息来源身上。然而,确定哪些信息来源能够生成有用的指标同样不是件易事。此外,当物理代理(例如机器人、卫星、人类等)进行数据收集时,我们必须首先规划需要测量的指标,以便缩短代理活动时长并降低相关成本。我们将这个抽象问题,称为自适应传感

我们引入了一种新的方法以体现自适应感知问题,其中的机器人必须遍历所处环境以识别值得关注的位置或对象。自适应传感涵盖机器人技术当中众多已经得到充分研究的问题,包括快速识别意外污染泄漏与放射源,以及在搜索与救援任务当中寻找人类目标等。在这类场景当中,设计一条能够尽快返回正确解决方案的传感轨迹往往直接决定着任务的成败。

在这里,我们以放射源搜寻(简称RSS)问题为例,其中无人机必须在所处环境中发现K个最为严重的发射性源头,而K为用户定义的参数。放射源搜寻属于自适应传感问题中一类特别有趣的例子,这主要是因为其中往往存在大量异质化明显的背景干扰,此外我们还很难找到适合统计置信区间且拥有良好表征的传感模型。

\"image\"

在这里我们引入了AdaSearch,一套用于常规自适应传感问题的逐步消除框架,这里将在放射源搜寻场景下进行演示。AdaSearch能够持续且明确地提供环境中每点放射率的置信区间。利用这些置信区间,算法将以迭代方式识别可能作为主要放射源的一组候选点,同时排除掉其它的点。

以体现搜索作为多重假设检验场景

从传统角度来讲,机器人社区一直将体现搜索(embodied search)目标设想为连续运动规划问题。其中,机器人必须在环境探索与有效轨迹选择之间做出有效平衡。这一基本思路意味着原有算法会将轨迹优化与探索结合至单一目标当中,从而利用滚动优化控制进行优化(参见Hoffman与Tomlin、Bai等人、以及Marchant与Ramos的各自相关论文)。但我们的想法与此不同:我们希望建立起一种替代性方法,通过假设检验将问题表述为一种可排序的最佳行动识别。

在可排序的假设检验当中,我们的目标是通过迭代方式收集数据,从而针对多个单独问题得出结论。我们为代理提供一组N个测量行动,其中每种行动都根据不同的固定分布产生观察结果。

代理的目标是学习这些N个观测分布的一些预先指定的性质。举例来说,在“A/B测试”这一统计问题当中,测量行动对应于向新客户展示产品A或产品B,同时记录他们对于相关产品的评估意见。在这里,N=2,因为其中只涉及两种行动——向客户展示产品A,以及向客户展示产品B。其中需要关注的属性,在于哪款产品得到的平均反馈更好(如下图所示,B的反馈更好)。随着收集到客户的偏爱情况,我们将能够获得产品样本平均反馈以及与之相关的置信区间,这一区间由每款产品的置信区间下限(简称LCB)与置信区间上限(简称UCB)予以描述。随着收集到的测量值不断增加,我们对于每款产品的反馈预估将更为自信,换言之我们能够进一步确定两款产品的真实排名。从结果来看,只要达成下述条件,则产品B的反馈要好于产品A:如果产品B的置信下限高于产品A的置信上限,即可基本断定产品B的平均反馈情况有很大机率高于产品A。

\"image\"
 
在环境感测场景下,每种行为都对应着一组来自给定位置与方向的传感器读数。通常来讲,代理希望了解哪项单一度量行为能够带来最大的平均观察信号值,或者说一组K项行为能够带来更高的总体平均观察值。为了实现这一目标,代理可能会利用以往观察到的结果按排序选择行为,从而尽可能采取具有最大平均观察值的行为以实现潜在的行动收益。

乍看起来,最佳行为排序识别这种方法似乎过于抽象了,很难在具体的移动传感代理当中发挥作用。但事实上,代理可以选择任意度量行为序列,而无需考虑潜在成本,例如与变更行为相关的活动时间。与此同时,最佳行动排序识别机制自身的抽象性质正是其最强大的力量所在。通过以精确的统计语言制定具体的搜寻问题,我们得以制定出与每项感测行为相关的可操作观察置信区间,同时在确定需要关注的目标观察点之前整理出所需采取的所有行为集合。

我们提出的具体搜寻方法正是AdaSearch,其利用来自最佳行为排序识别与全局轨迹规划的启发式置信区间,从而分步渐近地实现复杂度最优度量,同时有效分摊活动成本。

放射源搜寻

为使阐述更加具体,我们将以单一放射源搜寻问题为场景解读AdaSearch的工作原理。我们将环境建模为一套平面网络,如下图所示。其中只存在一个高强度放射性源(下图中红点位置)。然而,定位该位置非常困难,因为传感器的测量功能会被背景辐射(即粉红点位置)所干扰。我们通过在网格上方部署配有辐射传感器的四旋翼飞行器来获取传感测量值。这一案例的目标,在于设计出一系列轨迹以确保机载传感器能够获得正确的测量值,从而使我们能够尽快将放射源位置与背景放射位置区分开来。

\"image\"

AdaSearch

我们的AdaSearch算法将全局覆盖规划方法与基于假设检验的自适应传感规则相结合,旨在定义出最优轨迹。在第一次进行网格探索时,我们会对整体环境进行均匀采样。

\"image\"

在经过第一轮探索与测量结果观察之后,我们可以略去其中一部分区域。如果某个点的置信区间上限低于其周边任何点的平均观察值置信区间下限,则将该点排除——这意味着其不太可能是我们需要搜寻的放射来源。

\"image\"

在下一轮搜寻中,AdaSearch将专注于对作为潜在放射源位置的剩余点(即绿色方块)进行更细致地采样。

\"image\"

整个过程将不断继续,每轮的候选放射源数量也将持续减少,直到最终只剩下一个点。AdaSearch会返回此点(即放大的红点),这就是搜寻工作最终给出的放射源答案。

由于整个统计公式清晰可信,因此我们基本可以肯定在已知的传感模型下,AdaSearch有很高机率能够返回正确的放射源位置。我们在算法的整个执行过程当中设立固定的各单独区域周边置信界限宽度(以标准差方式),从而确保该概率具有一定程度的置信度。此外,AdaSearch还提供特定于具体环境的运行时保证,更多详情请参考我们的论文。(https://arxiv.org/abs/1809.10611)。

实验基准

对于常规自适应搜寻问题,目前最流行的解决方案当数信息最大化(Bourgault等人提出)。信息最大化方法的基本思路在于根据信息理论标准在高机率位置收集测量值,并遵循滚动优化规划以进行轨迹规划。下面,我们将把AdaSearch与同样针对放射源搜寻场景定制的信息最大化方案InfoMax进行比较。

遗憾的是,对于规模较大的搜索区域,这种方法的实时计算存在诸多局限,例如只能给出规划范围与轨迹参数化的近似结果。这些近似结果可能导致算法贪婪性过高,且浪费太多时间以追踪无法解决问题的错误线索。

为了消除统计置信区间与全局规划启发(这一组合直接对打InfoMax中的信息指标与滚动优化规划)间的歧义,我们选择一种简单的全局规划方法NaiveSearch作为辅助基准。该方法会均匀地对网格进行采样,且保证在每个网格单元处花费相同的采样时间。

实验结果

我们建立起全部三种算法,并立足一套以4米为基本网格单位的64 x 64环境下利用仿真四旋翼无人机加模拟辐射传感器读数对其进行了测试,希望了解三者在十种随机实例排布下的具体效能。

在我们的实验中,我们观察到AdaSearch在计算完成速度总体上快于NaiveSearch以及InfoMax。随着我们不断增加背景辐射的最高水平,AdaSearch相较于NaiveSearch的运行时间比较优势亦持续提升,这与论文中提出的理论界限相符。

\"image\"

AdaSearch相较于NaiveSearch的效能提升表明,自适应性方法确实比非自适应方法更具优势。同样令人惊讶甚至出乎意料的是,即使是NaiveSearch,在处理此类问题时也往往能够带来优于InfoMax的表现。这意味着InfoMax中采用的滚动优化控制方法存在局部贪婪性,并因此损害了其实际效能。相比之下,AdaSearch则优雅地将自适应策略与全局覆盖保证加以结合。

AdaSearch更具通用性

在放射源搜寻案例中大获得成功的无人机载AdaSearch演示,不禁令我们想到这种新型算法还能够在哪些更为常规/通用的问题中带来良好表现?事实证明,这种核心算法拥有相当广泛的适用范围,甚至适用于多种非机器人体现型传感问题。

举例来说,我们可以考虑在某一地区分布的100家医疗诊所中为10家规划试点计划的问题。我们可能需要立足诊所的具体位置进行调查,从而评估哪里才是某种特定罕见疾病发病率最高的区域或者各地区的具体发病率水平。这是一项具体型感测问题,因为诊断工作由医师亲自进行。很明显,人力调查员的数量有限,而且同一组调查员的工作时间需求以及在各诊所之间的往来成本都属于客观存在的物理限制。

调查工作的调度人员可以利用AdaSearch的指导意见整理各诊所位置在计算该疾病新病例时的具体用时,外加由此前往其它诊所的距离,从而权衡往来行程时长以确保调查人员能够在单位时间之内收集到更多相关数据。

一般来讲,当我们认为测量过程中的干扰因素足以保证算法在数据收集过程中完成多轮区域探索时,AdaSearch即可带来良好的预期表现。无论是搜寻放射源头还是调查罕见疾病的发病率,我们都可以将其建模为泊松分布随机变量,其中的方差会随平均值变化而变化。AdaSearch能够轻松适应不同的噪声模型(例如高斯模型),从而对接存在此类模型的多种不同应用场景。只要我们能够计算或者框定出适当的置信区间边界,AdaSearch就能够保证有效遍历该区域以找到需要关注的目标点。

如果您希望了解关于AdaSearch的更多细节信息,可通过以下链接获取论文全文: https://arxiv.org/abs/1809.10611

查看原文链接:
https://bair.berkeley.edu/blog/2018/11/14/adasearch/

会议推荐:

12月20-21,AICon全球人工智能与机器学习技术大会将于北京盛大开幕,学习来自Google、微软、BAT、360、京东、美团等40+AI落地案例年终总结,与国内外一线技术大咖面对面交流,不见不散。

\"\"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值