李萌胖的蜕变之路-CSDN博客

原创 JoyDL_chapter11_DDPG&TD3

一些非常经典的基于策略梯度的算法：DDPG 、TD3、PPO、SAC等算法，本文介绍DDPG、TD3，后者是在前者的基础上做了一些优化。DDPG是对DQN的一个连续动作空间版本扩展，因形似AC架构，故归为一种AC。

2024-01-26 23:37:36 1834

原创 JoyRL_Chapter10_AC_algorithm

Joyrl学习打卡——参考网址：https://datawhalechina.github.io/joyrl-book/#/ch10/main。

2024-01-23 23:35:05 842

当然，仿真环境也并不是万能的，因为仿真环境和真实环境之间往往存在一定的差异，这就需要我们在设计仿真环境的时候尽可能全面地考虑到真实环境的各种因素，这也是一个非常重要的研究方向。最终通过一次次的决策来实现目标，这个目标通常是以最大化累积的奖励来呈现的，这个过程就是序列决策（sequential decision making）过程，而强化学习就是解决序列决策问题的有效方法之一。在这个过程中，我们的资产会随着股票价格的变化而变化，这就是奖励或惩罚，每次的买卖就是决策。在股票交易中，我们的目标是通过买卖股票来。

2024-01-22 22:44:17 867

原创 DRL策略梯度

深度强化学习——策略梯度

2024-01-21 00:01:03 1370

原创 setupenv

深度强化学习——基于datawhale_JoyRL框架

2024-01-17 19:57:06 1490 1

原创 2021-08-11 Macbook adb配置方法

Mac本adb配置方法以下网址下载android studio和SDK tools package然后安装android studiohttps://developer.android.google.cn/studio/终端执行以下命令sudo vim ~/.bash_profile回车i（不用回车）#Setting PATH for Android ADB Toolsexport PATH=PATH:/Users/xxx/Library/Android/sdk/platform−tools

2021-08-11 14:55:25 381

STM32F4xx标准例程

STM32F407标准例程，可用于常规化功能的实现，直接调用，方便使用。

2018-06-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_42230458的博客