股票操作之强化学习基础（二）（Q-learning、Sarsa、Sarsa-lambda）

最新推荐文章于 2024-05-27 18:13:59 发布

wbbhcb

最新推荐文章于 2024-05-27 18:13:59 发布

阅读量6.3k

点赞数

分类专栏：量化杂文文章标签：强化学习神经网络算法机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31611005/article/details/104194122

版权

股票操作之强化学习基础（二）（Q-learning、Sarsa、Sarsa-lambda）

1. Q-learning

Q-learning是强化学习一个比较基础的算法，很多强化学习的升级算法都是在q-learning的基础上进行升级的。
在这里插入图片描述
举个简单的例子：一个人在位置1，他需要到位置6，每次可以向左或者向右移动，但是他不知道位置6在他最右边，他只能自己去摸索如何到位置6。已知条件有在各个状态下向左或向右可到达的位置，到达6位置可以获得10奖励。

那他该怎么去学习呢？

Q-learning的一个核心就是对Q-table的学习，Q其实是quality的缩写。Q-table其实就是在当前状态不同动作的价值评估矩阵。状态在这个例子中可以表示为人所在的位置，动作的话包括向左移动和向右移动两个动作。这个Q-table的初始化可以表示成如下:
在这里插入图片描述
Q-table中的值就是quality。那他怎样去学习这个Q-table呢。

Step 1：根据Q-table中各个动作的价值，采用贪婪策略选择动作，以一个概率选择一个动作（优先选价值高的动作），从当前状态移动到下一个状态。（如果在位置1向左移动则还在位置1）

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
股票操作之强化学习基础（二）（Q-learning、Sarsa、Sarsa-lambda）

股票操作之强化学习基础（二）（Q-learning、Sarsa、Sarsa-lambda）1. Q-learningQ-learning是强化学习一个比较基础的算法，很多强化学习的升级算法都是在q-learning的基础上进行升级的。举个简单的例子：一个人在位置1，他需要到位置6，每次可以向左或者向右移动，但是他不知道位置6在他最右边，他只能自己去摸索如何到位置6。已知条件有在各个状态下向...
复制链接

扫一扫

专栏目录

wbbhcb CSDN认证博客专家 CSDN认证企业博客

码龄9年

40: 原创

4万+: 周排名

178万+: 总排名

17万+: 访问

: 等级

2092: 积分

299: 粉丝

83: 获赞

15: 评论

813: 收藏

私信

关注

热门文章

分类专栏

量化杂文 36篇
数据挖掘竞赛 1篇

最新评论

利用机器学习搭建选股策略并进行荐股的完整代码
a1024801337: 请问github上的python是哪个版本
量化建模时常见的数据穿越问题
weixin_39065106: 我理解博主说的用LGBM的特征重要性判断特征是否穿越是一种以结果推断过程的方式，所以不仅仅LGBM，XGB的特征重要性也是同样的道理，用特征KS、IV异常高来判断亦可。
量化建模时常见的数据穿越问题
文艺女程序员: 请问xgb的feature_importance能查验出来特征穿越吗
利用强化学习进行股票操作实战（四）
☞小白: 博主，pycharm运行完之后，测试结果部分的曲线图，是怎么画的啊
利用强化学习进行股票操作实战（三）
☞小白: 博主，pycharm运行完之后，测试结果部分的曲线图，是怎么画的啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。