建立了world model用于模拟用户,可以认为是一种model-based RL 每轮训练,首先利用真实交互训练agent,通过得到的数据训练world model,再根据world model做planning训练agent