(11-4-02）基于深度强化学习的量化交易Agent(1)：Agent交易模型（2）基于DDPG算法+基于SAC算法

本文链接：https://blog.csdn.net/asd343442/article/details/147456219

10.5.3 交易模型3: 基于DDPG算法

DDPG（Deep Deterministic Policy Gradient）是一种用于连续动作空间的深度强化学习算法。在这个上下文中，它用于训练股票交易的智能体。DDPG是一种基于策略梯度的算法，它同时学习动作策略和值函数。这使得DDPG在处理具有高维、连续动作空间的问题时非常有效。

（1）在库FinRL中，通过调用agent.get_model("ddpg", model_kwargs=DDPG_PARAMS)创建DDPG模型。

agent = DRLAgent(env = env_train)
DDPG_PARAMS = {"batch_size": 128, "buffer_size": 50000, "learning_rate": 0.001}

model_ddpg = agent.get_model("ddpg",model_kwargs = DDPG_PARAMS)

执行后会输出：

{'batch_size': 128, 'buffer_size': 50000, 'learning_rate': 0.001}

Using cuda device

（2）在下面的代码中，使用agent.train_model方法对DDPG模型进行了训练。具体来说，model=model_ddpg表示使用之前创建的DDPG模型，tb_log_name='ddpg'表示TensorBoard日志的名称，total_timesteps=50000表示总的训练步数。

trained_ddpg = agent.train_model(model=model_ddpg, 
                             tb_log_name='ddpg',
                             total_timesteps=50000)

上述代码将执行DDPG算法的训练过程，并将训练好的模型保存在trained_ddpg中。执行后会输出：

=================================
begin_total_asset:1000000
end_total_asset:4369306.145455855
Sharpe:  0.8034072979350758
=================================
=================================
begin_total_asset:1000000
end_total_asset:4365995.854896107
Sharpe:  0.8200827579868865
=================================
#####省略部分输出结果
----------------------------------
| time/              |           |
|    episodes        | 16        |
|    fps             | 124       |
|    time_elapsed    | 373       |
|    total_timesteps | 46288     |
| train/             |           |
|    actor_loss      | -2.24e+08 |
|    critic_loss     | 1.41e+13  |
|    learning_rate   | 0.001     |
|    n_updates       | 43395     |
|    reward          | 4365996.0 |
----------------------------------
=================================
begin_total_asset:1000000
end_total_asset:4365995.854896107
Sharpe:  0.8200827579868865
=================================
=================================
begin_total_asset:1000000
end_total_asset:4365995.854896107
Sharpe:  0.8200827579868865
=================================

（3）将训练好的DDPG模型保存到指定的目录'/content/trained_models/trained_ddpg.zip'中，以便在后续可以加载和使用该模型。

trained_ddpg.save('/content/trained_models/trained_ddpg.zip')

10.5.4 交易模型4: 基于SAC算法

SAC（Soft Actor-Critic）是一种强化学习算法，专门用于解决连续动作空间中的问题。SAC采用了深度学习神经网络来近似值函数和策略，并通过最大化期望累积奖励来进行训练。

（1）在下面的的代码中，通过类DRLAgent创建了一个 Soft Actor-Critic（SAC）模型。SAC_PARAMS 包含了 SAC 模型的关键参数设置，这个模型使用了 FinRL 库中的 get_model 方法，并指定模型类型为 "sac"，同时传递了 SAC 模型的参数。该模型在环境 env_train 中进行训练，以学习股票交易策略。

agent = DRLAgent(env = env_train)
SAC_PARAMS = {
    "batch_size": 128,
    "buffer_size": 100000,
    "learning_rate": 0.0003,
    "learning_starts": 100,
    "ent_coef": "auto_0.1",
}

model_sac = agent.get_model("sac",model_kwargs = SAC_PARAMS)

执行后会输出：

{'batch_size': 128, 'buffer_size': 100000, 'learning_rate': 0.0003, 'learning_starts': 100, 'ent_coef': 'auto_0.1'}

Using cuda device

（2）通过 agent 对象对 SAC 模型进行训练，使用环境 env_train训练生成数据。trained_sac 包含了训练完毕的 SAC 模型，该模型已经学习了在给定环境下执行股票交易策略的参数。这个模型的训练过程产生的日志也被记录在TensorBoard 中，日志命名为 'sac'。

trained_sac = agent.train_model(model=model_sac,
                             tb_log_name='sac',
                             total_timesteps=50000)

执行后会输出：

=================================
begin_total_asset:1000000
end_total_asset:4774375.224598323
Sharpe:  0.8157447898211176
=================================
=================================
begin_total_asset:1000000
end_total_asset:4851457.312329918
Sharpe:  0.817397961885012
=================================
=================================
begin_total_asset:1000000
end_total_asset:4851717.33279626
Sharpe:  0.8174262460980435
=================================
=================================
begin_total_asset:1000000
end_total_asset:4851205.14751689
Sharpe:  0.8173829155723342
=================================
----------------------------------
| time/              |           |
|    episodes        | 4         |
|    fps             | 77        |
|    time_elapsed    | 150       |
####省略部分输出结果
----------------------------------
| time/              |           |
|    episodes        | 16        |
|    fps             | 76        |
|    time_elapsed    | 606       |
|    total_timesteps | 46288     |
| train/             |           |
|    actor_loss      | -2.65e+08 |
|    critic_loss     | 1.16e+13  |
|    ent_coef        | 977       |
|    ent_coef_loss   | -2.8      |
|    learning_rate   | 0.0003    |
|    n_updates       | 46187     |
|    reward          | 4837676.5 |
----------------------------------
=================================
begin_total_asset:1000000
end_total_asset:4804962.823019405
Sharpe:  0.8165128039174648
=================================

（3）将经过训练的 SAC 模型保存为ZIP 文件'/content/trained_models/trained_sac.zip'，该文件存储了训练好的模型参数以及相关信息。

trained_sac.save('/content/trained_models/trained_sac.zip')

(11-4-02）基于深度强化学习的量化交易Agent(1)：Agent交易模型（2） 基于DDPG算法+基于SAC算法

10.5.3 交易模型3: 基于DDPG算法

10.5.4 交易模型4: 基于SAC算法

(11-4-02）基于深度强化学习的量化交易Agent(1)：Agent交易模型（2）基于DDPG算法+基于SAC算法