第五章 模型和训练 | 强化学习模型

本文探讨了强化学习模型在量化投资中的应用,特别是使用Deep Deterministic Policy Gradient算法优化投资组合。介绍了基础神经网络,如多层卷积神经网络,并阐述了网络训练的优化过程,包括使用的激活函数、正则化和优化器。最终,明确了学习目标,如最大化投资组合价值和增长率,最小化回撤,以及提高夏普比率。
摘要由CSDN通过智能技术生成

第五章 模型和训练

1、强化学习模型

强化学习(Reinforcement Learning)是让计算机实现在特定的情况下,通过不断地尝试,从错误中学习,最后找到规律,找到可以获得最大回报的行为。强化学习有四个基本组件,包括输入:环境(States),动作(Actions),回报(Rewards)以及输出:方案(Policy)。和监督学习不同,强化学习没有确定的标签,需要机器自己摸索,每一个动作对应一个奖赏,最后得到一个奖赏最大的方式进行数据处理。围棋AlphaGo就是一个强化学习的实例。

强化学习的主要算法有:Sarsa,QLearning, Policy Gradients, Actor-Critic,Deep-Q-Network等。强化学习的目标是发现最优策略π(x),使得达到最优价值Q【9】。主要有两种途径可以学习最优值函数:一种是基于模型的学习,在学习的过程中对模型进行估计,如实时动态规划(Real-TimeDynamic Programming, RTDP);另一种是无模型学习,在学习的过程中直接估计最优行动值。Q学习算法是Watkins在1987年提出的一种无模型强化学习算法:它用状态s下采取行动的下一个状态,对假定的行动所对应的最大值Q更新当前的值Q。强化学习Q算法具有不断试错、优化调整的特点。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阿岛格

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值