时间里的河-CSDN博客

原创季节性ARIMA模型进行时间序列预测

总结：季节 SARIMAX 不适合把周期指定的很大，这里指定为144，拟合的速度非常慢，并且吃内存。首先对于模型： SARIMA(p,d,q)x(P,D,Q)。这里的检查主要是考虑了季节拟合之后的残差的检查。利用mape指标对拟合的效果进行评估。差分之后的绿色线条显示序列比较平稳。下面检查是否需要季节差分。

2023-12-18 00:20:37 652

原创明明有很多事情做，但是不愿开始

可以休息，不要害怕休息，发呆是有益处的，但是不要去追逐信息流，不要用熵增的方式休息，这样越休息越累。不如好好闭上眼睛，冥想，休息。要成功，就必须让自己尽可能多地保持在汇聚的状态和学习的状态中。这就是做反自己的意思。发散状态是自发的，是熵增的，是不利于自己克服阻力和增加势能的。人的大脑有发散状态和汇聚状态。

2023-12-17 16:04:58 123

再比如、大部份人年纪轻轻的时候打扮的花枝招展，谈了这个谈那个，天天为找对象而忧愁烦恼，你安于孑然一身，你能在下班之后的时光里静静享受孤独，给自己充电，学习论文里的先进知识。再比如，你高度重视睡眠，天天都让自己睡个好觉，那么你的生命力和大脑的敏锐度就得到了保障，你的硬件基础就比别人更加领先。你如果拥有伟大的梦想，如果你想要实现一个超越你周围人、超越一个平常人类的伟大的目标，你必须要付出非凡的、艰苦卓绝的努力。总之就是，你想一个失败的平庸之人会怎么做，会如何生活，反着来，不让自己成为和他一样的人。

2023-12-16 14:38:17 120

原创焦虑，其实是你自愿选择的

无数人，包括那些高学历高智商的人，在这个平台上刷新一遍又一遍，疯狂的想要知道别人身上发生了什么事情，得到了什么更好的东西。自己已经有一碗了，吃的也已经很开心了，但是总是看着锅里还有肉，贪婪的本性趋势我们去探求得到更好的，更多的。从上学，到找工作，从买房到结婚生娃，他总是可以选择用自己的头脑去过度思考未来还没有发生的事情，从而让自己无限焦虑下去，直到生命终结。我们的生命是存在于当下的时刻的，对未来的过度思考会让我们失去当下，失去生命存在的基础，其实也就是在消耗和毁灭自己的生命。他距离他想要的东西更近了吗？

2023-12-16 14:13:15 96

原创 jupyter local module not found error

检查了很多遍发现是sys.path的不同的路径存在同名的包的冲突，然后python以第一个包为准，所以就报错了。

2023-08-18 15:54:58 130

原创 vs code 环境变量的配置

这造成了一些环境污染，因为/home/xxx/.local/bin 这个环境变量放在前面，文件夹里面的可执行的文件会比conda环境更加优先地执行。先说结论，把vscode中的配置项，下面这个，取消打勾，环境变量就正常了。环境变量中重复出现下面这两项。

2023-08-17 17:03:39 578

原创 Qlib RL framework 强化学习在量化交易中的应用

资源文档：

2023-08-14 10:32:50 298

原创自然策略优化的解释 Natural Policy Optimization

总而言之，Natural Policy Optimization 是一种通过利用自然梯度来优化策略梯度算法的方法，旨在提高强化学习算法的收敛性和稳定性。Natural Policy Optimization 则通过利用策略参数空间的几何结构，以及对策略分布的自然梯度进行优化，来克服传统方法的局限性。计算自然梯度：根据收集的样本和估计的优势值，计算策略分布的自然梯度。传统的策略梯度算法通常使用梯度上升法来更新策略参数，但这种方法可能受到梯度估计的方差问题以及参数更新的不稳定性等挑战。

2023-08-12 22:54:44 427

原创 MAPPO 算法的深度解析与应用和实现

PPO 属于 on-policy 的算法，所以被认为它的样本效率比较低。在多智能体的环境下，off-policy的策略被广泛使用。在这项工作中，我们仔细研究了PPO在合作多智能体设置下的性能。我们展示了基于ppo的多智能体算法在四种流行的多智能体测试平台(粒子世界环境、星际争霸多智能体挑战、Google Research Football和Hanabi挑战)中实现了惊人的强大性能，只需要最小的超参数调整，并且没有任何特定领域的算法修改或架构。

2023-08-09 21:02:58 2413 2

原创论年轻人拥有的资源和对时间的合理估值

我们假设他除了吃饭，睡觉，洗漱，拉屎之外，每天可以自主支配利用的时间是10个小时，所以用小时来计，他拥有600个小时的可利用时间，以及1万元用于生活费用和学习费用。回到前面的看病的例子上，如果打车可以节省半个小时的时间，那就是5万人民币，他付出的30块钱牛毛都不如，他绝对应该果断打车，如果他是一个眼光长远的人。他可以把时间花在：抖音小红书，跑步健身，打乒乓球，交友软件，打游戏，出去吃好吃的玩好玩的，科研，备考…很显然的是，最优解必然是最大化备考的时间，提高科研的效率，适当健身，最小化其他事情上面的时间了。

2023-08-09 19:15:17 126

原创【论文研读】MARLlib 的架构分析

和尚念经多智能体强化学习框架研究。多智能体强化学习库。多智能体强化学习算法实现。多智能体强化学习环境的统一化，标准化。多智能体强化学习算法解析。多智能体强化学习算法性能比较。

2023-08-09 17:20:23 622

原创安装ubuntu 18.04 系统（1）——制作系统安装U盘

step 2: 选择持久分区的大小，也就是这个U盘中多大的容量还可以用于存储文件和数据。由于我的U盘比较大，所以我选择了8G。剩下8G给系统镜像，绰绰有余。（纠正，下面文件系统选项要选择 NTFS。step 1: 清空自己的U盘中的内容，点击选择按钮，选择一个自己已经下载好的 iso文件。step 3，点击开始，安装镜像。

2023-08-08 23:41:11 835

原创论文开题如何写研究内容和研究方法

你需要使你的读者（如你的指导老师，评审委员会等）能够理解你的研究的目的和方法，以及你的研究将会如何帮助学术界或社会更好的理解你的研究主题。研究内容是你计划研究的主题，包括你想要解答的问题，研究的目标，以及可能的假设。研究内容应该清晰明确，有指向性，能够明确告诉读者你的研究主题、目的和研究的重要性。研究方法是你将如何去实现你的研究目标，包括你将使用什么样的数据收集方式，分析方法，实验设计等。研究方法应该详细清晰，逻辑连贯，使得其他研究者可以复制你的研究。在开题报告中，研究内容和研究方法是两个核心部分。

2023-07-11 23:50:00 12115

原创 RL4RS，离线强化学习，无模型强化学习等等资源汇总

我们介绍了无动作指南（AF-Guide），一种通过从无动作离线数据集中提取知识来指导在线培训的方法。流行的离线强化学习（RL）方法将策略限制在离线数据集支持的区域内，以避免分布偏移问题。结果，我们的价值函数在动作空间上达到了更好的泛化，并进一步缓解了高估 OOD 动作引起的分布偏移。在 D4RL 上的实验表明，与以前的离线 RL 方法相比，我们的模型提高了性能，尤其是当离线数据集的体验良好时。我们进行了进一步的研究并验证了价值函数对 OOD 动作的泛化得到了改进，这增强了我们提出的动作嵌入模型的有效性。

2023-04-13 01:22:52 391 1

原创多智能体深度强化学习在移动边缘计算的联合多通道访问和任务卸载中的应用

对于每个MTA，actor网络的输入是它的状态，表示为si(t)，然后通过带有ReLU激活层的两层全连接网络。最终的输出动作是根据输出概率随机选择的，输出动作用长度为K+1的one-hot向量表示。最重要的原因是在训练过程中，对于每一个agent来说，其他agent都是环境的一部分，其他agent的变化会使环境变得不稳定，这就打破了Q-learning算法所需要的马尔可夫假设。然后，我们提出了一种基于 MADDPG 的算法，如算法 1 所示，应用于我们的问题，以便 MTA 可以学习合作策略并提高系统效率。

2023-04-09 16:30:11 1369 1

原创 PerfEnforce Demonstration: Data Analytics with Performance Guarantees

In RL, every time the system transitions to a state s, it updates the reward function for that state. In our setting, we use the following equation, where R(s′) denotes the updated reward for state s: 下面公式展示的是，发生了状态转移的时候，奖励值的更新过程。越是右边，节省的钱越多，成本也就越低。

2023-04-03 17:30:15 418

原创很好的英文教程网站

下面这个nbviewer可以在线打开github上的jupyter notebooks方便查看。

2023-03-10 14:37:19 103

原创 Linux find 命令的使用方法

这篇文章写的很好了。

2023-03-10 13:47:28 73

原创 Off-policy vs on-policy（大师级解释，推荐）

It can either update the value and policy upon receiving an experience sample or update after collecting all experience samples.（注意了，虽然online learning版本的Q-learning 可以实时地更新策略，但是它的新策略并不用来生成样本。简单滴说，behavior policy and target policy 一样的，那就是on policy。

2023-03-06 00:45:00 649

原创 TD算法超详细解释，一篇文章看透彻！

上一节我们讲到，Robbins-Monro Algorithm算法解决了下面的这个求期望的问题，本节我们把问题稍微复杂化一点。看下边这个期望的计算：假设我们可以获得随机变量R,XR,XR,X的样本那么可以定义下面的函数：其实，也就是是把之前的一个随机变量变成了一个多元随机变量的函数。下面我们展示，这个例子其实和TD算法的表达很相似了。本节所指的TD算法特指用于估测状态价值的经典TD算法。这个状态价值的期望形式的表示，有时候被称为贝尔曼期望等式，其实是贝尔曼方程的另一种表达，它是设计和分析TD算法的重要工具。

2023-03-04 20:33:52 4101

原创不得不服气最强大的md编辑器还是typora

一体化解决所有问题。

2023-03-04 12:51:36 269

原创 Stochastic Approximation —Stochastic gradient descent 随机近似方法的详解之（四）随机梯度下降

郑重声明：本系列内容来源赵世钰(Shiyu Zhao)教授的强化学习数学原理系列，本推文出于非商业目的分享个人学习笔记和心得。如有侵权，将删除帖子。SGD算法在机器学习领域被广泛应用。w是要被优化的参数，X是个随机变量，两者都可以是向量。在函数f是凸函数的情况下，求解上述问题的直接方法是梯度下降。右边式子的期望的梯度是什么呢？于是有下面的式子：然而，这个期望的梯度实际中很难求到。

2023-03-04 12:49:00 563

原创 github图床+picgo+vscode yyds

注意，picgo安装下列插件可以确保上传到github的图片按照日期文件夹有序存放。

2023-03-03 14:14:13 194

原创 Stochastic Approximation 随机近似方法的详解之（三）Dvoretzky’s convergence theorem

共同决定的随机序列。证明在这里不展开，需要用到quasimartingales的知识。到这里也就证明了RM算法求解方程根的收敛性。然后就有：（注意，下面用到了中值定理）不再是确定的了，而是由。

2023-03-02 19:48:25 901 3

原创 mathbb和mathcal数学字符的字体问题

https://www.overleaf.com/learn/latex/Mathematical_fonts

2023-03-02 19:15:24 430

原创 Stochastic Approximation 随机近似方法的详解之（二）Robbins-Monro Algorithm

当函数g的表达式已知或者它的导数已知的时候，求解当然很简单。但是当g未知的时候（比如是一个神经网络或者g不能被精确观察到的时候），问题就困难起来了。这个时候我们知道的是什么呢？RM算法是随机近似领域的先驱性工作。众所周知的随机梯度下降算法是RM算法的一种特殊情况。是我们要最小化的目标函数。这就符合了RM算法的设定。展开之后，和前面用迭代更新方法求均值是一模一样的。满足一些温和的条件的时候，w是会收敛到。我们接下来说明它是特殊的RM算法。RM算法的收敛特性怎么去证明呢？我们想要去求下面这个等式的根，

2023-03-02 17:27:11 2189 1

原创 Stochastic Approximation 随机近似方法的详解之（一）

随机近似的定义：它指的是一大类随机迭代算法，用于求根或者优化问题。temporal-difference algorithms是随机近似算法的一个特殊情景。

2023-03-02 15:47:26 895

原创代码 Stock_NeurIPS2018_SB3.ipynb 中值得研究的几个问题

【代码】代码 Stock_NeurIPS2018_SB3.ipynb 中值得研究的几个问题。

2023-02-17 02:58:50 141

原创 DDL倒计时15天，下一步的重要操作！

在运行代码之前需要点击这里的笔记本设置，进行GPU的选择，TPU是什么呢？谷歌自研的张量加速器，相当于是机器学习的专用GPU。只需要在notebook的代码前加上！就变成了终端命令了。问题来了，免费的COLAB怎么执行命令行呢？FinRL和QLib来寻找发文的方向。

2023-02-14 13:45:03 201

原创 UNSW商学院调研

UNSW金融博士项目详细信息

2023-02-13 15:47:50 99

原创 AIFA考试准备相关资料

实用投融资分析师” (Applied Investment & Finance Analyst，缩写AIFA) 考试旨在提高投融资领域从业人员的实际分析和操作能力，已推出“估值建模”及“财务报表分析”两科。★ 《估值建模》教材第 1、2、3、8 章（中国金融出版社 2011-2021 年共 2 版 11 次印刷），或公司金融（Corporate Finance）相关部分；★ 可在 www.aifaedu.com AIFA 官网“备考”栏目查看“考试范围”；★ 与财务报表分析相关的学习资料。

2023-02-13 15:13:43 389

原创关于conda env导出yaml无法create的问题解决

在使用conda env 命令创建package 列表之后，无法用yml文件创建新的环境。的作用是：表示环境的导出是跨平台的。这是因为在环境导出的时候没有加。

2023-02-13 15:02:10 353

原创改造我们的学习

当前的学习需要改造。

2023-02-07 19:31:25 105

原创写在2022年的末尾

今年是我人生的第24个年头。最近了解稚晖君，xinglu师兄，以及很多优秀的同辈人的事迹之后，感觉到自己还差了很远。读研已经过半，研二已经到了第二个学期，而自己还什么成果都没有。甚至开题的事情到现在都还没有头绪。谈了一段失败的恋爱，水了2份失败的实习。还干了啥。啥都没干。怎么才算是实实在在地做了点事情呢？比如，发文章，锤炼英语，锤炼代码水平。干高质量的实习。一切让你的本领得到提升的事情，都是算数的事情。我的问题在哪呢？

2022-12-28 15:09:28 547

原创【对可转债和期权的初步认识】

期权，就是按照每股一定量的期权费买入这个股票在未来指定时间按照指定的价格进行买入和卖出的权利。理解了期权之后再理解可转债就容易多了。下面这段话来自投资者可以享受可转换债券的增值部分，这意味着它们本质上是一种带有股票期权的债券，尤其是看涨期权。看涨期权是一种协议，它赋予期权购买者在特定时期内以特定价格购买股票、债券或其他工具的权利——而不是义务。然而，可转换债券往往提供较低的票面利率或回报率，以换取将债券转换为普通股的期权价值。所谓可转债，是指债券在转换成股票的时候，按照事先给定的价格。

2022-10-27 19:29:36 630

原创 RBFN分类器的使用

RBF 神经网络的学习分成两阶段，自组织学习阶段和监督学习阶段。在自组织学习阶段获取隐含层中心，在监督学习阶段获取隐含层到输出层之间的权值，各部分参数都可以快速学习，因此速度较快。因此，要学习这个方法本身的话，还是要搜集一些原汁原味的资料去学。论文中提出的这个，大致知道他是啥情况就够了。但是我认为，这种的应用型文章，关于理论的叙述，属于作者抄袭人家别人的。而这个过程必然涉及一些魔改和扭曲。由此来看，BP算法是神经网络的基础。周志华的书中对误差反向传播来更新网络参数的原理介绍得很清楚了。

2022-10-11 21:33:13 428

原创高频特征分析——适应性逻辑回归 Adaptive Logistic Regression

这个特征在Online Learning机制下运行，使用10个最新交易事件，也就是说根据最新的信息流更新对下一个中间价格变动的预测。同时，使用Hessian矩阵作为自适应率。此外还提供了来自接近最佳的LOB水平与更深的LOB水平之间的关系的逻辑系数。订单簿中前6档的股票的数量。输出是分别用出价和卖出价的标量(即概率)表示的特征表示。参数估计通过计算参数的似然性进行。特征的计算结果应该是h(V)这个函数的值。问题一：Hessain矩阵的作用是什么？问题零：特征计算的结果是什么？问题二：矩阵V代表什么呢？

2022-10-09 22:50:53 561

github图床+picgo+vscode yyds.md

决策树算法及其实现

空空如也