- 博客(1)
- 收藏
- 关注
原创 D2RL算法基于matlab平台、python、c语言代码脚本
定义机器人模型参数% 状态数% 动作数% 观察数% 初始化Q值表% 随机生成环境和动作数据= ‘done’end% 训练D2RL模型% 学习率% 折扣因子% 迭代次数% 每个批次的大小% 学习率衰减率% 随机采样观测数据idx = 0;batch_size% 从随机采样的观测数据中提取一批数据% 计算目标Q值% 将目标函数设置为最小化Q值% 使用Bfgs方法进行优化% 最大迭代次数为100次。
2023-05-15 13:58:39
147
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人