李宏毅深度强化学习(国语)课程(2018)
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程中显示的获得奖励,奖励函数是难以确定。因此,模仿学习方法考虑让机器学习人类的做法,来使得机器可以去做人类才能完成的事。

模仿学习主要有两种方式:行为克隆(Behavior Cloning)和逆向强化学习(Inverse Reinforcement Learning)。
李宏毅深度强化学习(国语)课程(2018)
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

机器是可以与环境进行交互的,但是大部分情况下,机器却不能从这个过程中显示的获得奖励,奖励函数是难以确定。因此,模仿学习方法考虑让机器学习人类的做法,来使得机器可以去做人类才能完成的事。

模仿学习主要有两种方式:行为克隆(Behavior Cloning)和逆向强化学习(Inverse Reinforcement Learning)。
3万+
1173
1139

被折叠的 条评论
为什么被折叠?