翻译自官方文档,转载请注明出处。
- Academy - Unity组件,用来控制训练场景的时间设定、场景重置和训练/推理设置。
- Action -环境中的代理(Agent)执行决策(Decision)的行为。
- Agent - 在训练场景中执行观察(Observation)和行动(Action)的Unity组件,代理的行动由与之相连的大脑(Brain)做出的决策驱动。
- Brain - 给和大脑连接的代理作出决策的Unity组件。
- Decision - 对于被观察的行动,由大脑做出的行为规范。
- Editor -包含很多功能面板 (e.g. Hierarchy, Scene, Inspector)的Unity编辑器。
- Environment - 一个Unity场景,包含唯一的学院,一个或多个代理和与之相连的大脑。
- FixedUpdate - Unity里每隔固定时间(默认0.02秒)执行一次的方法,ML-Agents的逻辑应该在这个方法里实现。
- Frame - 主摄像机进行渲染并显示的一个实例,对应于游戏引擎每次调用的Update方法。
- Observation - 为代理提供一部分训练环境状态信息。 (e.g. Vector, Visual, Text)
- Policy - 由观察结果产生决策的方法。
- Reward - 训练过程中每一步的反馈信号,用来判断代理在训练环境当前的状态下的行动对否符合预期。
- State - 给定时间内训练环境的基本属性(包含其中所有的代理)。
- Step - 对应引擎中每次调用的FixUpdate方法,反映的(可能)是最小的原子状态的变化。
- Update - Unity每渲染一帧调用一次的方法,ML-Agents的逻辑不应该在Update里实现(因为渲染一帧的时长是不固定的)。
- External Coordinator - 负责与外部进程通信的ML-Agents类 (本例中为Python API)。
- Trainer - 负责训练外部大脑(External Brain)的Python类 ,包含为外部大脑做出决策的TensorFlow。