- 博客(3)
- 收藏
- 关注
原创 Deep reinforcement learning for portfolio management of markets with a dynamic number of assets阅读笔记
从Policy Network输出的p[t](即建议的投资组合向量)代表了网络建议在下一个时间段应该持有的资产份额。此时,寻找最优交易意味着要确定哪些资产应该卖出(记作非负变量ŷi),哪些资产应该买入(记作非负变量x̂i),从而使得从当前投资组合到建议投资组合的转换成本最低。本文进行了三组不同的回测实验,对于24小时的交易时段,持仓期设为30分钟;尽管DNA-S在最短持仓期的设置下表现最好,但DNA-R在整个设置中都表现出良好的TR和SR,尤其是在“30天的交易时段,持仓期设为1天”情况下。
2024-09-20 12:32:26 978
原创 Deep reinforcement learning for portfolio selection --- 论文阅读笔记
当β值处于中间水平时(例如0.005),投资组合表现出了较好的综合性能,不仅年度回报率和累积回报率仍然维持在较高水平(分别为36.92%和83.09%),而且夏普比率(1.39)和卡玛比率(2.32)也都表现出色。当ξ(交易成本率)较低时,如0.01%,投资组合能够实现更高的年化收益率和累积回报率,同时保持较好的夏普比率(Sharpe Ratio)和卡玛比率(Calmar Ratio)。这篇文章的创新之处在于提出了一种先进的无模型深度强化学习框架,以构建在动态、复杂和高维金融市场中的最优投资组合策略。
2024-09-03 13:12:02 795 1
原创 OPTIMAL MARKET MAKING BY REINFORCEMENT LEARNING --- 论文阅读笔记
然而,将输入的价格数据换成真实市场数据后,尽管DQN-agent的策略仍有优势,但除了标准差外,其他指标均有所下降。最后,训练数据量较小,且不如原论文中的数据那样具有随机性。本论文设置的初始数据为s0=100,之后的数据为上一个数据上随机浮动self.sigma * self.sqrtdt(当dt=0.005时,这个数大约为0.14),尝试修改输入输入数据训练市场环境。使用的数据为,上证指数(000001.SS)每分钟的数据,修改dt=1,T=237,由于真实的数据浮动比较大,将da修改为0.3。
2024-08-27 13:27:23 979 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人