第五章模型和训练 | 强化学习模型

阿岛格

已于 2022-03-19 19:52:33 修改

阅读量2.6k

点赞数

分类专栏：人工智能.量化投资文章标签：深度学习神经网络数据挖掘机器学习 tensorflow

于 2020-06-18 10:49:08 首次发布

本文链接：https://blog.csdn.net/weixin_41192839/article/details/106824969

版权

人工智能.量化投资专栏收录该内容

24 篇文章 15 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文探讨了强化学习模型在量化投资中的应用，特别是使用Deep Deterministic Policy Gradient算法优化投资组合。介绍了基础神经网络，如多层卷积神经网络，并阐述了网络训练的优化过程，包括使用的激活函数、正则化和优化器。最终，明确了学习目标，如最大化投资组合价值和增长率，最小化回撤，以及提高夏普比率。

摘要由CSDN通过智能技术生成

第五章模型和训练

1、强化学习模型

强化学习（Reinforcement Learning）是让计算机实现在特定的情况下，通过不断地尝试,从错误中学习,最后找到规律,找到可以获得最大回报的行为。强化学习有四个基本组件，包括输入：环境（States），动作（Actions），回报(Rewards)以及输出：方案（Policy）。和监督学习不同，强化学习没有确定的标签，需要机器自己摸索，每一个动作对应一个奖赏，最后得到一个奖赏最大的方式进行数据处理。围棋AlphaGo就是一个强化学习的实例。

强化学习的主要算法有：Sarsa，QLearning, Policy Gradients, Actor-Critic,Deep-Q-Network等。强化学习的目标是发现最优策略π（x），使得达到最优价值Q【9】。主要有两种途径可以学习最优值函数：一种是基于模型的学习,在学习的过程中对模型进行估计,如实时动态规划（Real-TimeDynamic Programming, RTDP）；另一种是无模型学习,在学习的过程中直接估计最优行动值。Q学习算法是Watkins在1987年提出的一种无模型强化学习算法：它用状态s下采取行动的下一个状态，对假定的行动所对应的最大值Q更新当前的值Q。强化学习Q算法具有不断试错、优化调整的特点。</