行为克隆与偏差指定语言相关技术解析
行为克隆
行为克隆技术在多控制变量和复杂任务领域有重要应用。例如,集装箱起重机操作员可控制小车速度和绳索长度,固定翼飞机飞行员能控制副翼、升降舵、方向舵、油门和襟翼等。构建自动驾驶仪时,学习者需构建能设置每个控制变量的系统,这被视为多任务学习问题。
直接控制器构建方法
- 数据特征 :每个训练示例是一个特征向量,包含飞机的位置、方向、速度以及每个控制设置的值(如副翼、升降舵、油门和襟翼),方向舵被忽略。
- 决策树构建 :为每个控制变量构建单独的决策树。以副翼设置为例,将其作为因变量,其他变量(包括其他控制)作为训练示例的属性。依次为副翼、升降舵等构建决策树。
- 控制执行 :自动驾驶仪代码在控制循环的每个周期执行每个决策树。这种方法将每个控制的设置视为单独任务。尽管通常需要同时调整多个控制才能达到预期结果,但多个决策树仍能实现多变量控制。例如,当副翼决策树启动翻滚时,升降舵决策树检测到翻滚并使飞机俯仰以执行转弯。
然而,直接控制器存在局限性。对于状态空间相对较小的系统,直接控制器效果较好,但对于复杂系统,直接情境 - 动作规则的行为克隆往往会产生非常脆弱的控制器。例如,在飞行模拟器中引入气流湍流时,克隆控制器的性能会迅速下降。这是因为记录人类操作性能所提供的示例仅覆盖了复杂系统(如飞行中的飞机)状态空间的一小部分,控制器的“专业知识”非常有限。如果系统偏离控制器的专业范围,就无法恢复,通常会导致灾难性失败。
为实现更强大的控
超级会员免费看
订阅专栏 解锁全文
129

被折叠的 条评论
为什么被折叠?



