读RL论文:Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
通过极大似然公式:找到reward使得trajectory能产生尽可能多的reward (logZ起到归一化,限制reward不能无限大的作用)。
直观上看,L的梯度是在expert policy下梯
读RL论文:Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
通过极大似然公式:找到reward使得trajectory能产生尽可能多的reward (logZ起到归一化,限制reward不能无限大的作用)。
直观上看,L的梯度是在expert policy下梯