发展历史 分类 现实中的很多例子是:不基于模型的且回报函数也是不知道的。但是网上给出的例子基本上都是基于模型的, 当然模型中的回报函数也是给你定义出来了的,或许你要做的就是调节超参数或者网络结构,使得他更加快速的 收敛而已。