学研成长记-CSDN博客

原创《动手学强化学习》笔记7_DQN算法

在Q-learning 算法中，我们以矩阵的方式建立了一张存储每个状态下所有动作Q值的表格。表格中的每一个动作价值Q(s,a)表示在状态s下选择动作a然后继续遵循某一策略预期能够得到的期望回报。然而，这种用表格存储动作价值的做法只在环境的状态和动作都是离散的，并且空间都比较小的情况下适用，我们之前进行代码实战的几个环境都是如此（如悬崖漫步）。当状态或者动作数量非常大的时候，这种做法就不适用了。例如，当状态是一张 RGB 图像时，假设图像大小是210*160*3，此时一共有。

2024-02-22 20:32:21 986 1

原创《动手学强化学习》笔记6_Dyna-Q算法

在强化学习中，“模型”通常指与智能体交互的环境模型，即对环境的状态转移概率和奖励函数进行建模。基于模型的强化学习（model-based reinforcement learning）和无模型的强化学习无模型的强化学习根据智能体与环境交互采样到的数据直接进行策略提升或者价值估计，如： Sarsa 和 Q-learning 算法。在基于模型的强化学习中，模型可以是事先知道的，也可以是根据智能体与环境交互采样到的数据学习得到的，然后用这个模型帮助策略提升或者价值估计。

2024-01-16 15:18:41 1078 1

原创《动手学强化学习》笔记5_时序差分算法

对于大部分强化学习现实场景（例如电子游戏或者一些复杂物理环境），其马尔可夫决策过程的状态转移概率是无法写出来的，也就无法直接进行动态规划。在这种情况下，智能体只能和环境进行交互，通过采样到的数据来学习这类学习方法统称为无模型的强化学习不同于动态规划算法，无模型的强化学习算法不需要事先知道环境的奖励函数和状态转移函数，而是直接使用和环境交互的过程中采样到的数据来学习，这使得它可以被应用到一些简单的实际场景中。无模型的强化学习中的两大经典算法：Sarsa 和 Q-learning，它们都是基于时序差分。

2024-01-15 15:58:10 1012

原创《动手学强化学习》笔记4_动态规划算法

策略迭代算法的过程如下：对当前的策略进行策略评估，得到其状态价值函数，然后根据该状态价值函数进行策略提升以得到一个更好的新策略，接着继续评估新策略、提升策略……直至最后收敛到最优策略。

2024-01-10 13:33:01 1106 1

原创阿里集群数据集cluster-trace-v2018的下载与介绍

Alibaba Cluster Data V2018 包含 6 个文件，压缩后大小近 50GB（压缩前 270+GB），里面包含了台服务器、相应的在线应用容器和离线计算任务长达天的运行情况。

2023-12-29 17:01:59 3314 2

原创《动手学强化学习》笔记3_蒙特卡洛方法

例如，在图 1所示的正方形内部随机产生若干个点，细数落在圆中点的个数，圆的面积与正方形面积之比就等于圆中点的个数与正方形中点的个数之比。如果我们随机产生的点的个数越多，计算得到圆的面积就越接近于真实的圆的面积。在一条序列中，可能没有出现过这个状态，可能只出现过一次这个状态，也可能出现过很多次这个状态。还有一种选择是一条序列只计算一次回报，也就是这条序列第一次出现该状态时计算后面的累积奖励，而后面再次出现该状态时，该状态就被忽略了。我们为每一个状态维护一个计数器和总回报，计算状态价值的具体过程如下所示。

2023-12-28 15:59:40 435 1

原创《动手学强化学习》笔记3_马尔可夫决策过程

马尔可夫决策过程（Markov decision process，MDP）是强化学习的重要概念。强化学习中的环境一般就是一个马尔可夫决策过程。与多臂老虎机问题不同，马尔可夫决策过程包含状态信息以及状态之间的转移机制。如果要用强化学习去解决一个实际问题，第一步要做的事情就是把这个实际问题抽象为一个马尔可夫决策过程，也就是明确马尔可夫决策过程的各个组成要素。

2023-12-27 16:44:54 1102 1

原创《动手学强化学习》笔记2

（exploitation）是指拉动已知期望奖励最大的那根拉杆，由于已知的信息仅仅来自有限次的交互观测，所以当前的最优拉杆不一定是全局最优的。例如，对于一个 10 臂老虎机，我们只拉动过其中 3 根拉杆，接下来就一直拉动这 3 根拉杆中期望奖励最大的那根拉杆，但很有可能期望奖励最大的拉杆在剩下的 7 根当中，即使我们对 10 根拉杆各自都尝试了 20 次，发现 5 号拉杆的经验期望奖励是最高的，但仍然存在着微小的概率—另一根 6 号拉杆的真实期望奖励是比 5 号拉杆更高的。

2023-12-19 15:05:07 895 1

原创《动手学强化学习》笔记1

（1）序列决策：指在一个连续的时间序列上做出一系列决策过程。这种决策过程通常涉及到每一个时间点上都要做出决策，而且之前的决策会影响到后续的决策。序列决策通常涉及到动态规划、马尔科夫决策过程（MDP）、强化学习等邻域。（2）占用度量：在强化学习中，"占用度量"通常指的是在一个特定状态下，某个动作被执行的频率或持续时间。这可以用来衡量在agent与environment交互的过程中，agent对于不同动作的选择偏好程度。

2023-12-13 14:27:00 1660 1

原创第三篇：边缘计算环境下依赖任务调度研究思考1

这篇文章是我针对边缘计算依赖任务调度课题做的一个简单研究总结，希望对同道中人有帮助，一起探讨一下这方面的研究！共同进步！你相信光吗！冲！

2023-11-26 16:16:19 999 4

原创第二篇：边缘计算综述总结

边缘计算作为继云计算之后新的计算范式，将计算下沉到靠近用户和数据源的网络边缘，提供数据缓存和处理功能，具有低延迟、安全性高、位置感知等特点。文中从边缘缓存的内容分发网络开始，综述了边缘计算的发展历程，从内容分发网络到云计算、雾计算和边缘计算的演变过程。接着，文章对目前流行的3种边缘计算架构进行了介绍，总结了边缘计算的典型应用场景:智慧保健、智能建筑控制、海洋监测控制、智慧城市、军事应用。然后，文章归纳了边缘计算的研究热点。最后，文章总结了边缘计算面临的问题和未来发展的展望。

2023-07-18 09:56:24 1409 1

原创第一篇：开篇笔记

因为研究课题是在边缘计算系统中展开的，所以我们必须要先了解边缘计算的概念、发展历程、边缘计算体系结构、实现边缘计算的关键技术、边缘计算的研究热点、边缘计算应用、边缘计算面临的问题、边缘计算与其他技术融合应用等。我们不但要学习传统的依赖任务调度部署算法还要学习基于深度学习、强化学习的依赖任务调度部署算法！这个板块是最重要的，我们可以先学习传统的任务调度部署算法，然后再学习基于深度学习、强化学习的任务调度部署算法！以上是我简单做的一个研究课题学习规划，可能会有不足的地方，希望大家多指正，一起探讨学习！

2023-07-12 23:50:02 111 1