- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 JoyDL_chapter11_DDPG&TD3
一些非常经典的基于策略梯度的算法:DDPG 、TD3、PPO、SAC等算法,本文介绍DDPG、TD3,后者是在前者的基础上做了一些优化。DDPG是对DQN的一个连续动作空间版本扩展,因形似AC架构,故归为一种AC。
2024-01-26 23:37:36
1816
原创 JoyRL_Chapter10_AC_algorithm
Joyrl学习打卡——参考网址:https://datawhalechina.github.io/joyrl-book/#/ch10/main。
2024-01-23 23:35:05
831
原创 DRL--JoyDLBook绪论--零星小记
当然,仿真环境也并不是万能的,因为仿真环境和真实环境之间往往存在一定的差异,这就需要我们在设计仿真环境的时候尽可能全面地考虑到真实环境的各种因素,这也是一个非常重要的研究方向。最终通过一次次的决策来实现目标,这个目标通常是以最大化累积的奖励来呈现的,这个过程就是序列决策(sequential decision making)过程,而强化学习就是解决序列决策问题的有效方法之一。在这个过程中,我们的资产会随着股票价格的变化而变化,这就是奖励或惩罚,每次的买卖就是决策。在股票交易中,我们的目标是通过买卖股票来。
2024-01-22 22:44:17
859
原创 2021-08-11 Macbook adb配置方法
Mac本adb配置方法以下网址下载android studio和SDK tools package然后安装android studiohttps://developer.android.google.cn/studio/终端执行以下命令sudo vim ~/.bash_profile回车i(不用回车)#Setting PATH for Android ADB Toolsexport PATH=PATH:/Users/xxx/Library/Android/sdk/platform−tools
2021-08-11 14:55:25
369
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人