强化学习 python代码
干饭人秦
这个作者很懒,什么都没留下…
展开
-
Python 深度强化学习算法(A3C)预测未来股票走势
本项目利用深度强化学习中的A3C算法提取某支股票的历史数据特征,然后预测未来15天的收盘价格走势。注:1)本项目使用tensorflow1.14版本。2)投资有风险,理财需谨慎。3)本人选择某股训练结果如下,通过实践表明,在市场环境相对稳定的情况下,本代码能够正确预测未来几天内的升降情况。但是单价数据会有些出入。1.数据导入需要从财经类网站自行下载自己意向的股票历史数据,将数据导入py文件中的python代码路径指向保存好的股票历史路径。通过训练1000次学习后预算未来15天的收盘价走势。"原创 2022-02-22 17:49:38 · 3038 阅读 · 15 评论 -
Actor-critic算法
##Actor-critic算法import randomimport matplotlib.pyplot as pltx=[]y=[]def random_pick(some_list, probabilities):random_num = random.uniform(0,1)cumulative_probability = 0.0for item, item_probability in zip(some_list, probabilities): #遍历cumulativ原创 2021-11-24 16:17:47 · 1101 阅读 · 0 评论 -
基于DP的MDP中的值迭代和策略迭代的区别
值迭代和策略迭代的区别 值迭代与策略迭代都是强化学习中的动态规划方法(DP), 它们的框架相同,都包含两个过程——策略估计和策略改进。 不同的是策略迭代是在策略评估之后,等到值函数收敛之后再进行策略改进,而值迭代是在策略评估的时候,只要值函数改变,就直接进行策略改进。我们用伪代码比较两者的区别。策略迭代:值迭代:...原创 2021-03-07 21:18:34 · 1511 阅读 · 0 评论