自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 JoyDL_chapter11_DDPG&TD3

一些非常经典的基于策略梯度的算法:DDPG 、TD3、PPO、SAC等算法,本文介绍DDPG、TD3,后者是在前者的基础上做了一些优化。DDPG是对DQN的一个连续动作空间版本扩展,因形似AC架构,故归为一种AC。

2024-01-26 23:37:36 1816

原创 JoyRL_Chapter10_AC_algorithm

Joyrl学习打卡——参考网址:https://datawhalechina.github.io/joyrl-book/#/ch10/main。

2024-01-23 23:35:05 831

原创 DRL--JoyDLBook绪论--零星小记

当然,仿真环境也并不是万能的,因为仿真环境和真实环境之间往往存在一定的差异,这就需要我们在设计仿真环境的时候尽可能全面地考虑到真实环境的各种因素,这也是一个非常重要的研究方向。最终通过一次次的决策来实现目标,这个目标通常是以最大化累积的奖励来呈现的,这个过程就是序列决策(sequential decision making)过程,而强化学习就是解决序列决策问题的有效方法之一。在这个过程中,我们的资产会随着股票价格的变化而变化,这就是奖励或惩罚,每次的买卖就是决策。在股票交易中,我们的目标是通过买卖股票来。

2024-01-22 22:44:17 859

原创 DRL策略梯度

深度强化学习——策略梯度

2024-01-21 00:01:03 1339

原创 setupenv

深度强化学习——基于datawhale_JoyRL框架

2024-01-17 19:57:06 1470 1

原创 2021-08-11 Macbook adb配置方法

Mac本adb配置方法以下网址下载android studio和SDK tools package然后安装android studiohttps://developer.android.google.cn/studio/终端执行以下命令sudo vim ~/.bash_profile回车i(不用回车)#Setting PATH for Android ADB Toolsexport PATH=PATH:/Users/xxx/Library/Android/sdk/platform−tools

2021-08-11 14:55:25 369

STM32F4xx标准例程

STM32F407标准例程,可用于常规化功能的实现,直接调用,方便使用。

2018-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除