<强化学习篇>强化学习基础路线baseline
1、动作概率函数
功能:输入:observation,action
输出:if action=None,输出动作概率分布;if action为制定动作,输出制动动作概率。对于离散空间,返回的是probability mass,连续空间,返回的是probability density.(连续空间中probability mass为0)。
2、获得当前环境函数
功能:输入:无
输出:当前环境
3、获得参数列表:
功能:输入:无
输出:模型的参数
4、获得参数:
功能:输入:无
输出:以字典的形式获得变量名->模型参数
5、学习函数
功能:输入:总时间步、log间隔、log名称、复位(bool)
输出:训练好的模型
6、加载函数:
功能:输入:加载模型路径、是否需要在新的环境中test
7、加载参数:
功能:输入:加载路径
输出:加载模型参数从一个文件或者字典
8、预测函数:
功能:输入:observation
输出: 模型动作和下一个状态
9、预训练函数:
功能:输入:数据集,epoch,学习率,
输出: 使用行为克隆的方法训练模型
10、保存函数:
保存当前参数到文件中
功能:输入:保存路径
11、设置随机种子:
可以根据选择设置随机种子