finRL源解读

最新推荐文章于 2025-06-03 09:10:03 发布

原创最新推荐文章于 2025-06-03 09:10:03 发布 · 1.4k 阅读

2 ·

CC 4.0 BY-SA版权

强化学习专栏收录该内容

8 篇文章

订阅专栏

本文介绍了如何使用FinRL框架进行金融投资建模。首先，通过引入yfinance、pandas等库处理股票数据并计算技术指标。接着，定义环境状态和动作空间，构建基于gym的交易环境。然后，选用稳定基线库(stable-baselines3)中的MlpPolicy策略，并进行初始化。在训练过程中，利用ppo策略进行模型训练，并设置风控阈值。整个过程展示了深度学习在股票交易决策中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

finRL源解读

required = { ‘yfinance’, ‘pandas’, ‘matplotlib’, ‘stockstats’, ‘stable-baselines’, ‘gym’}

数据处理

获取股票日价格以及加入各种指标作为state，如果是多只股票，排列方式为根据每日每只股票排列。index累加。
分成训练集和测试集

建模

state_space：

    state_space = (
            1
            + 2 * stock_dimension
            + len(config.TECHNICAL_INDICATORS_LIST) * stock_dimension
    )

建环境
建agent，依赖于环境
```
agent = DRLAgent(env=env_train)
```

定义state和action

action = Box(-1.0, 1.0, (2,), float32)
state = Box(-inf, inf, (21,), float32)

构造数据
env.step

选策略

加载子policy，有很多可选，底层已封装好，一般选择MlpPolicy，policy有一个step，返回值底层已经算好。用来生成数据，然后在env里跑。

_policy_registry = {
    ActorCriticPolicy: {
        "CnnPolicy": CnnPolicy,
        "CnnLstmPolicy": CnnLstmPolicy,
        "CnnLnLstmPolicy": CnnLnLstmPolicy,
        "MlpPolicy": MlpPolicy,
        "MlpLstmPolicy": MlpLstmPolicy,
        "MlpLnLstmPolicy": MlpLnLstmPolicy,
    }
}
初始化：
super(MlpPolicy, self).__init__(sess, ob_space, ac_space, n_env, n_steps, n_batch, reuse,
								feature_extraction="mlp", **_kwargs)

加载策略模型，agent加载，模型使用的是stable_baselines3原装，可以自定义参数送进去。

  model_ppo = agent.get_model("ppo")

在加载时模型进行初始化：
input初始化
model初始化

# 构建actor函数
self.deterministic_action, policy_out, logp_pi = self.policy_tf.make_actor(self.processed_obs_ph)
# 构建critics函数，这是使用双Q
qf1, qf2, value_fn = self.policy_tf.make_critics(self.processed_obs_ph, self.actions_ph, create_qf=True, create_vf=True)

qf1_pi, qf2_pi, _ =  self.policy_tf.make_critics(self.processed_obs_ph,

policy_out,create_qf=True,create_vf=False,reuse=True)
```
target初始化
loss初始化