强化学习初学习

夏西西欧呦

已于 2022-07-10 21:56:43 修改

阅读量2.7k

点赞数

文章标签：数字货币量化交易深度强化学习决策策略反馈优化

于 2022-07-10 21:54:59 首次发布

爱主机测评-vpsil.com

本文链接：https://blog.csdn.net/qq_46557343/article/details/125711456

版权

起因是自己当初不知怎么的就知道了数字货币，然后就是是投资，当时的收益曲线是从一百元盈利到900多，又充了一百之后，全部赔光。

隔了一段时间...

尝试用传统指标+量化的方式来交易

简单地说就是用金融市场里常见的EMA，TRA，或者布林带，以及买入卖出梯度等信息进行分析预测，在实盘上跑了两周，收益率直接升到90%多，当时觉得这一块大有可为。

然而当时是4月底，要准备面试了，所以就忍痛割爱把这一块的兴趣就暂时放下了。

六月，进入字节实习，前端

七月，组里来了一位新人，大四学长，听他自我介绍的时候说他业投资过数字货币，顿时心里尘封的那种感觉就来了，晚上和学长聊了好久，就发现自己对量化交易这一块还是一旦提及就心跳加速的有热情。

然后就利用周六周日的时间来了解了一下“更高级的量化交易方式”-深度强化学习，也感谢高中和大学同学给了我一些有用的资料。

可以理解为一个智能体在股市这个环境中，不停地随机做决策，然后环境会给出我们这次决策的反馈，我们再根据这次决策去调整优化我们的决策函数。

感觉这一块的入门都很难，（当然是对我目前的水平而言），大一大二时高数和概率论没怎么好好学，所以现在看这些知识难免吃力（完全看不懂），哈哈，但是看了一部分，感觉强化学习的这个方向真的是潜力非常大。

比如说监督学习，主要是对我们标注好的数据集进行学习，那么似乎也就注定了监督学习训练出来的模型的最好效果也就是人类的水平。

然而强化学习在没有标签的情况下，通过环境给出的反馈来调整自己的策略。

所以给我感觉是：强化学习的学习方式更加“智能”，就像我们每个人从小到大，不断地尝试一些事情，然后周围的人和环境给我们正反馈或者负反馈，然后我们自己思考，进而改进自己的言行。

除此之外，在马尔科夫决策环中的决策过程加入神经层我觉得会让整个策略更加的有效，不仅借鉴了人类学习、成长的方式，也借鉴了神经网络的优点。

总之随着对深度强化学习的了解，颇有些“刘姥姥进大观园”的感觉，让我觉得这种学习方式很优秀的地方还有这种

“随机的冒险行为”，就是即便能够根据“利用”自己目前的认知做出最好的判断，还是会有小概率产生一种新的行为，称为为“探索”。

“当前收益与未来收益”，是对当前的收益以及未来能够得到的收益的一个权衡，不过我目前还不知道在量化交易里面是倾向于“当前收益”，落袋为安，还是说追求“长远收益更好一点”。

继续学习吧。

夏西西欧呦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习初学习

起因是自己当初不知怎么的就知道了数字货币，然后就是是投资，当时的收益曲线是从一百元盈利到900多，又充了一百之后，全部赔光。隔了一段时间...尝试用传统指标+量化的方式来交易简单地说就是用金融市场里常见的EMA，TRA，或者布林带，以及买入卖出梯度等信息进行分析预测，在实盘上跑了两周，收益率直接升到90%多，当时觉得这一块大有可为。然而当时是4月底，要准备面试了，所以就忍痛割爱把这一块的兴趣就暂时放下了。六月，进入字节实习，前端七月，组里来了一位新人，大四学长，听他自我介绍的时候说他业投资过数字货币，顿时心
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。