Older司机渣渣威-CSDN博客

原创 “具有分布式能源资源的多个智能家庭的能源管理的联邦强化学习”文章学习四——基于联邦深度学习的多智能家居能源管理

我们考虑的是在连续动作空间中由相应的智能体安排空调、WM和ESS的能量消耗的情况。在图3(a)的TOU关税以及图3(b)的预测室外温度和图3(c)的光伏发电能量下，工作机械、空调和储能系统的操作由提出的HEMS控制24小时，1小时调度解析度。b）计算上一步选择的行动at，从行动中获得奖励Rt，并用Q(st, at)和状态V(st)的值计算A(st, at)，以更新演员网络（第9行）。第七，新生成的全局模型ωGnew被分配给所有的LHEMSs，它们根据ωGnew训练自己的本地模型（第19，20行）。

2023-11-18 08:30:00 276

原创 “具有分布式能源资源的多个智能家庭的能源管理的联邦强化学习”文章学习三——基于联邦深度学习的多智能家居能源管理

对于AC，给定状态SAC包括电价、室外温度和室内温度（如4所示），AC代理通过最大化Rt AC（如8所示）来决定AC的最优能耗调度[即，动作Et AC（7）]，该函数为负电价和与室内温度相关的消费者舒适成本的之和。对于ESS，给定状态SESS包括电价、SOE和预测的PV发电量（如6所示），ESS代理通过最大化Rt ESS（如10所示）来计算ESS的最优充放电调度[即，动作Et ESS（7）]，该函数为负电价和与ESS过充电和欠充电相关的可靠运行成本的之和。3）具有可中断负载的可调度设备（ESS）。

2023-11-17 08:45:00 262

原创 “具有分布式能源资源的多个智能家庭的能源管理的联邦强化学习”文章学习二

在每个本地设备的训练过程完成后，其模型被传输并聚合到一个全局系统中，以估计所有本地设备的全局模型ωG，表示如下：ωG = f(ω1, ω2,...,ωN )。A2C通过适应基线，即优势，来提高DRL算法的性能和稳定性，该优势定义为Aπθ(st, at) = Qπθ(st, at) - Vπθ(st)。Vπθ(st)表示在策略πθ下状态st的值，它被定义为智能体将在状态st中获得的折扣累积未来奖励的期望值：Vπθ(st) = E[Rt+1 + γRt+2 + γ2Rt+3 + ···|s = st]。

2023-11-16 08:45:00 203

原创 “具有分布式能源资源的多个智能家庭的能源管理的联邦强化学习”文章学习一

设计一个与储能系统（ESS）集成的家庭能源管理系统（HEMS） [5]，同时考虑通过ESS进行双向能源控制 [6]，以及开发基于分层优化技术的HEMS，包括本地HEMS和全局HEMS，以实现多个智能家庭的能源管理 [7]。此外，我们还证明了即使有更多的DRL代理加入FRL网络，提出的FRL方法仍然可以保持良好的性能。与传统的以云为中心的机器学习模型不同，在本文中，我们提出了一种使用联邦强化学习的分层分布式机器学习框架，该框架可以优化安排多个智能家庭中的空调、窗户和ESS的能源消耗，同时确保消费者的舒适度。

2023-11-15 07:15:00 242

原创 SLAM技术及应用

具体来说，SLAM技术是指机器人在自身位置不确定的条件下，在完全未知环境中创建地图，同时利用地图进行自主定位和导航。机器人在运动过程中通过重复观测到的环境特征定位自身位置和姿态，再根据自身位置构建周围环境的增量式地图，从而达到同时定位和地图构建的目的。Step5路径规划：在已知地图和机器人位置的情况下，利用SLAM技术进行路径规划，以实现从起点到终点的有效移动，并规避障碍物。1．确定自身的位置和姿态：机器人在未知环境中工作时，需要知道自己相对于地图的位置和姿态，才能进行有效的路径规划和导航。

2023-11-14 08:30:00 1963

原创点云数据建模

在机器视觉与目标识别领域，点云是计算机视觉处理的三维数据输入，可以用于三维目标检测、跟踪、识别和语义分割等，广泛应用于智能制造与服务机器人等领域。点云是空间中的一组数据点。9．点云数据管理：主要包含点云压缩、点云索引(KDtree、Octree)、点云LOD(金字塔)等，用于海量点云的渲染。Step2数据预处理：对采集的点云数据进行预处理，包括数据清洗、降噪、配准、精简等操作，以提高数据质量。4．点云配准：这是将多个点云数据进行对齐的过程，常用的配准算法有正太分布变换和著名的ICP点云配准等。

2023-11-13 08:30:00 2591

原创强化学习中蒙特卡罗方法

因此，玩家根据三个变量做出决定：他当前的总和（12-21），庄家的一个明牌（A-10），以及他是否持有一张可用的A牌。庄家的一张牌是明牌，另一张是暗牌。请注意，在此任务中，相同的状态在同一情节中永远不会重复发生，因此没有首次访问和每次访问的MC方法之间的区别。在那里，我们从MDP的知识中计算值函数，在这里，我们从样本回报中学习值函数与相应的策略仍然以相同的方式相互作用以获得最优性（GPI）。主要的区别在于，现在有多个状态，每个状态都像不同的问题（如联想搜索或上下文）一样，而且这些不同的问题是相互关联的。

2023-11-12 08:00:00 486

原创 Tensorflow中的张量操作

张量在TensorFlow中有广泛的应用。例如，在机器学习中，可以使用张量来表示训练数据和标签，并使用各种张量操作（如矩阵乘法、元素级运算等）来进行模型训练。在深度学习中，可以使用张量来表示神经网络的输入、输出和权重等，并使用各种张量操作（如卷积、池化等）来构建复杂的神经网络模型。例如，一个一维张量可以表示一个向量，一个二维张量可以表示一个矩阵，一个三维张量可以表示一个立方体等等。总之，张量是TensorFlow中的基础数据结构，可以用于表示各种形状的数据，并在机器学习和深度学习中发挥重要作用。

2023-11-11 00:30:00 256

原创强化学习中动态规划的效率

动态规划（DP）对于非常大的问题可能不实用，但与其他解决马尔可夫决策过程（MDP）的方法相比，DP方法实际上是非常有效的。如果我们忽略一些技术细节，那么DP方法（在最坏的情况下）找到最优策略所需的时间是状态和动作数量的多项式。尽管每个过程都改变了另一个过程的基础，但它们共同寻找一个联合解决方案：一个策略和值函数，它们都不会因任何一个过程而改变，因此是最佳的。对于某些问题，即使有这么多内存和计算也是不切实际的，但问题仍然有潜在的可解决性，因为沿着最优解轨迹只会出现相对较少的状态。

2023-11-10 08:15:00 91

原创强化学习中广义策略迭代

这两个目标相互作用，因为两条线不是正交的。策略迭代包括两个同时进行的交互过程，一个使价值函数与当前策略保持一致（策略评估），另一个使策略在当前价值函数下变得贪婪（策略改进）。即，所有方法都具有可识别的策略和价值函数，策略总是相对于价值函数进行改进，价值函数总是被驱动到该策略的价值函数。只有当价值函数与当前策略一致时，价值函数才会稳定下来，而只有当策略对当前价值函数贪婪时，策略才会稳定下来。使策略对价值函数表现出贪婪，通常会使价值函数对已改变的策略不正确，而使价值函数与策略一致，通常会导致该策略不再贪婪。

2023-11-09 09:30:00 165

原创强化学习异步动态规划

比如，有一种异步值迭代算法，在每一步都会使用一个单独的状态sk来进行回溯操作，使用的是值迭代回溯方法。虽然这部分和其他更复杂的DP算法超出了讨论范围，但重要的是，这些不同的回溯方法可以作为构建块，灵活地应用在各种无需扫描整个状态集的DP算法中。为了解决给定的MDP问题，我们可以同时运行一个迭代的DP算法，与此同时，智能体也在体验MDP。这些算法可以以任何顺序回溯状态的值，使用任何其他可用的状态的值。但是，为了保证算法正确收敛，异步算法必须持续回溯所有状态的值，不能在某个时间点之后忽略任何状态。

2023-11-08 08:15:00 73

原创强化学习中值的迭代

如果ph（正面朝上的概率）是已知的，那么整个问题就是已知的，例如可以通过值迭代来解决。一般来说，截断策略迭代算法的整个类可以被认为是扫描序列，其中一些使用策略评估备份，另一些使用价值迭代备份。策略迭代的一个缺点是，其每次迭代都涉及策略评估，这本身可能是一个漫长的迭代计算，需要多次遍历状态集。图2显示了通过连续的价值迭代扫描，值函数的变化以及找到的最优策略，对于ph = 0.4的情况。这个策略是最优的，但不是唯一的。下图显示了最终策略。事实上，策略迭代的策略评估步骤可以在不失去策略迭代收敛保证的情况下中断。

2023-11-07 07:00:00 188

原创强化学习中策略的迭代

我们将贴现率γ设置为0.9，并将此问题表述为一个持续的有限MDP，其中时间步长为天，状态为每天结束时每个地点的汽车数量，行动是在一夜之间两个地点之间移动的汽车数量的净差额。底部左边的图显示了等概率随机策略的值函数，底部右边的图显示了针对该值函数的贪婪策略。然而，在这种情况下，这些策略不仅是更好的，而且是最佳的，以最少的步骤到达终止状态。完整的算法如图1所示。图1中，针对v∗的政策迭代（使用迭代策略评估）算法存在一个不易察觉的错误，即如果策略在两个或更多个同样好的策略之间持续切换，该算法可能永远无法终止。

2023-11-06 06:30:00 199

原创强化学习的动态规划三

在这里，原始策略π是等概率的随机策略，而新策略π0是相对于vπ的贪婪策略。底部左边的图显示了vπ的值函数，底部右边的图显示了可能的π0集合。通过观察任何此类政策的值函数vπ0(s)，可以看出在所有状态s∈S下，vπ0(s)可以是∇1、⍶2或∇3，而vπ(s)最多为-14。因此，对于所有s∈S，vπ0(s)≥vπ(s)，这说明了策略改进。迄今为止考虑的是确定性策略的特殊情况。如果在策略改进步骤中存在并列的情况，即存在多个行动能够达到最大值，那么在随机情况下，我们并不需要从它们中选择一个单一的行动。

2023-11-05 07:15:00 177 1

原创强化学习的动态规划二

最终估计值实际上是vπ，在这种情况下，对于每个状态，它给出了从该状态终止的预期步数的否定。这一结果特别适用于我们在前一段中考虑的两个策略，一个是原始的确定性策略π，另一个是除了π0(s) = a = π(s)之外与π相同的改变策略π0。如果它更大，也就是说，如果在s中选择一次a然后遵循π比一直遵循π更好，那么人们就会期望每次遇到s时选择a会更好，并且新政策实际上会更好。考虑在所有状态和所有可能的行为上的变化是很自然的延伸，在每个状态下选择根据qπ(s, a)看起来最好的行动。考虑如下所示的4×4网格。

2023-11-04 08:45:00 124

原创强化学习的动态规划

为了从vk产生下一个近似值vk+1，迭代政策评估对每个状态s应用相同的操作：它将旧的状态s的值替换为从s的后继状态获得的新的值，以及在正在评估的政策下所有一步转移可能性的预期即时奖励。也就是说，我们假设其状态、动作和奖励集S、A（s）和R对于s∈S是有限的，其动态由概率p（s0，r|s，a）给出，对于所有s∈S，a∈A（s），r∈R和s0∈S+（S+是S加上一个终态，如果问题是离散的）。如果环境动态是完全已知的，那么上式就是|S|个同时线性方程的体系，需要解的是未知数(vπ(s), s∈S) |S|个。

2023-11-03 09:30:00 58

原创最优值与逼近

一个明确定义的最优性概念组织了我们在此书中描述的学习方法，并提供了一种理解各种学习算法的理论属性的方法，但它只是一个理想，智能体只能以不同的程度去逼近它。强化学习的在线性质使得有可能以一种更加努力的方式学习如何为经常遇到的状态做出好的决定，而牺牲不经常遇到的状态的学习努力。对于给定的MDP，状态和状态-动作对的最优价值函数是唯一的，但可能存在许多最优策略。最优性的明确定义构成了我们描述的学习方法，并提供了一种理解各种学习算法的理论性质的方法，但它是强化学习智能体只能以不同程度来逼近的理想。

2023-11-02 08:00:00 227

原创最优值函数二

由于游戏有大约1020个状态，因此在当今最快的计算机上解决v∗的Bellman方程将需要数千年的时间，同样的情况也适用于寻找q∗。许多不同的决策制定方法可以看作是近似求解Bellman最优方程的方法。例如，启发式搜索方法可以看作是将（3.17）的右侧展开几次，达到一定的深度，形成一个“树”的可能性，然后使用启发式评估函数来近似v∗的“叶子”节点。对于任何选择的rs，rw，α，β和γ，其中0 ≤ γ < 1，0 ≤ α，β ≤ 1，存在恰好一对数字v∗(h)和v∗(l)，同时满足这两个非线性方程。

2023-11-01 07:30:00 99

原创最优值函数

这些与vπ和qπ的备份图相同，只是在代理的选择点处增加了弧线，以表示在该选择上的最大值，而不是给定某个策略的预期值。因此，在表示状态-动作对的函数的代价下，而不是仅仅表示状态，最优的动作值函数允许选择最佳行动，而不必知道可能的后续状态及其价值，也就是说，不必知道环境的动态。v∗的美妙之处在于，如果用它来评估行动的短期后果，特别是单步后果，那么在长期意义上，贪婪策略实际上是最优的，因为v∗已经考虑到了所有可能未来行为的奖赏后果。最优政策也具有相同的最优动作值函数，记作q∗，其定义如下。

2023-10-31 07:00:00 582

原创强化学习中值函数应用示例

状态为球的位置，一个状态的价值是，从此位置到球洞的击球次数。在洞中的终端状态的价值为0。状态A在该策略下是最好的状态，但其期望回报小于10，即其即时奖励，因为从A状态开始，智能体将被带到A0状态，从那里很可能会撞到网格的边缘。另一方面，状态B的估值超过5，即其即时奖励，因为从B状态开始，智能体将被带到B0状态，该状态具有正价值。如果智能体执行的动作将它们移动到网格之外，它们的位置将保持不变，但它们将获得一个奖励1。类似地，从状态B开始，智能体执行的动作将使它们获得奖励+5，并将它们移动到B0单元格。

2023-10-30 06:30:00 188

原创语音增强的算法及应用

在近年的研究中，各种语音增强方法不断被提出，如基于小波变换的方法，基于人耳掩蔽效应的方法，基于听觉屏蔽的语音增强算法，基于最小均方误差MMSE-LSA语音增强算法，谱减法等，这些方法奠定了语音增强理论的基础并使之逐渐走向成熟。谱减法通过从带噪语音的功率谱中减去噪声功率谱，得到较为纯净的语音频谱，从而估计出原始语音。这些方法通过调整滤波器的参数，使得输出的语音信号尽可能地接近原始语音信号，以达到增强语音的目的。谱减法是一种经典的语音增强算法，其基本原理是基于语音信号的短时谱的自相关性和语音的非负性。

2023-10-29 08:20:43 823

原创强化学习中的值函数

其中隐含了从集合A(s)中采取的动作a，从集合S（在离散问题的情况下，从S+）中选取的下一个状态s0，以及从集合R中获得的回报r。请注意，在最后一个方程中，我们将两个求和合并成一个，一个是对所有s0值的求和，另一个是对所有r值的求和，合并成对所有可能值的求和。例如，如果代理遵循策略π并保持每个状态的实际回报的平均值，那么当遇到该状态次数足够多时，平均值将收敛于状态的值vπ(s)。同样，我们定义了在状态下执行动作a的值的策略π，表示为qπ(s, a)，作为从s开始，执行动作a，之后遵循策略π的预期回报。

2023-10-28 08:21:42 226

原创无人机队形控制的算法

长机-僚机法是一种无人机编队控制方法，它基于Leader-Follower机制，在多无人机组成的群体中，某架无人机作为整个编队的领导者，即长机，其他无人机作为僚机，通过长机向僚机发送信息，控制僚机的运动，以达到队形控制的目的。step1 设定长机和僚机的相对位置和队形：在编队中，每架无人机都有预设的相对位置和队形，长机和僚机之间也有相应的约定。1．长机-僚机法（Leader-Follower）：该算法通过设定一架无人机作为长机，其他无人机作为僚机，通过长机的信息来控制僚机的运动，以达到队形控制的目的。

2023-10-27 21:49:43 1022

原创车间自组网的仿真设计

在设计仿真环境时，需要考虑车间的布局、设备分布、通信环境等因素。Sterp1确定仿真目标和参数：明确车间自组网的仿真目标和需要考察的参数，例如网络的覆盖范围、通信质量、延迟等。Sterp2建立网络模型：根据车间自组网的特性和需求，建立相应的网络模型，包括设备分布、通信协议、拓扑结构等。Sterp4实现仿真过程：根据建立的模型和定义的场景，实现仿真过程，包括设备的连接、数据传输、网络状态监测等。Sterp5分析仿真结果：对仿真过程中收集的数据进行分析，评估车间自组网的性能和表现，提取有用的信息和结论。

2023-10-26 12:06:37 54

原创 FDTD算法及其应用

3．有限元时域法（Finite Element Time Domain，FETD）：这是一种将FEM和FDTD相结合的方法，通过在时间和空间上离散化电磁场方程，然后使用有限元方法进行数值求解。1．有限元法（Finite Element Method，FEM）：这种方法将连续的求解域离散化为有限个小的单元，对每个单元进行数值求解，然后将所有单元的解组合起来得到原问题的解。1．精度高：FDTD方法是一种数值方法，可以根据需要进行空间和时间离散化，从而在一定误差范围内精确地计算电磁场的分布和变化。

2023-10-25 23:54:23 1411 2

原创改进的粒子群算法

公式为：v[i] = w * v[i] + c1 * rand() * (pbest[i] - x[i]) + c2 * rand() * (gbest - x[i])。更新速度 v[i] = w * v[i] + c1 * rand() * (pbest[i] - x[i]) + c2 * rand() * (gbest - x[i])更新速度 v[i] = v[i] + c1 * rand() * (pbest[i] - x[i]) + c2 * rand() * (gbest - x[i])

2023-10-24 21:29:20 528

原创小波的原理和应用

小波变换的概念是由法国从事石油信号处理的工程师J.Morlet在1974年首先提出的，通过物理的直观和信号处理的实际需要经验的建立了反演公式，当时未能得到数学家的认可。与傅里叶变换在整个时间范围内对信号进行分析相比，小波变换可以根据信号的不同部分选择不同的基函数，从而更准确地描述信号的局部特征。小波，也被称为小波变换或离散小波变换，是一种在时间和频率领域内对信号或数据进行分析的方法。5．信号去噪：小波变换可以用于信号去噪，通过将信号分解为小波系数，并去除噪声的小波系数，再重构信号，可以实现信号的去噪处理。

2023-10-22 10:53:05 772

原创连续状态和连续动作的强化学习问题

（6）更新值函数网络：使用采集的样本和策略网络输出的动作概率，计算状态或状态-动作对的价值，并使用这些价值来更新值函数网络。（1）自动驾驶：在自动驾驶汽车中，需要考虑车辆的连续状态（如速度、位置、方向等）和连续动作（如加速、减速、转向等），以及环境中的各种因素（如道路状况、交通信号、障碍物等）。与离散状态和动作的强化学习问题不同，连续状态和动作空间是无限的，因此智能体需要探索和理解整个状态和动作空间，这增加了计算的复杂性和时间复杂性。例如，可以使用强化学习算法优化生产线的调度和协调，提高生产效率和质量。

2023-10-21 09:22:05 1010

原创多智能体强化学习问题的典型例子

（2）维度爆炸：如果将整个多智能体系统看作一个整体，进行集中学习，包括集中学习环境状态、所有智能体动作之间的映射，虽然消除了环境不平稳的问题，但随之带来了状态、动作空间的维度爆炸，尤其是当智能体数量增加时，可能导致智能体没法学到策略，扩展性太差。（1）环境非平稳性：在多智能体系统中，每个智能体的策略在不断更新，导致系统中的每个智能体所处的环境都是不平稳的。（3）信度分配：一个智能体的奖励不仅由其自身的行为决定，还可能受到其他智能体行为的影响，因此在多智能体系统中，信度分配成为一个重要问题。

2023-10-20 22:10:09 415

原创粒子群算法的原理及仿真实现

每只鸟回顾自己的路径，综合考虑自己走过的最优的位置和群体最优位置决定下一步的方向。在粒子群算法中，每个优化问题的潜在解都被视为搜索空间中的一只鸟，称为粒子。信息共享方式：在遗传算法中，个体的信息通过交叉和变异操作传递给下一代，而粒子群算法中，个体的信息通过速度和位置直接传递。搜索速度：粒子群算法的搜索速度较快，因为它只保留了上一代的最佳解，而遗传算法需要多次迭代才能找到最优解。粒子群算法的工作原理是模拟鸟群觅食行为，通过个体与群体之间的信息共享找到问题的最优解。

2023-10-19 06:33:02 273

原创强化学习SAC算法简介

SAC算法能够高效地解决连续动作空间中的强化学习问题，尤其适用于具有高维度状态空间和动作空间的问题。self.action_logits = self.policy_model(np.zeros((1, state_size), dtype=np.float32), training=True) # 初始化策略函数输出。（4）利用所学习的价值函数对策略进行评估，并利用所学习的策略函数选择具有最大期望回报的动作。4.更新策略函数：利用所收集的经验，使用梯度上升方法更新策略函数。

2023-10-18 23:57:42 1388

原创遗传算法在路径规划问题中的应用

其中，编码是将要求解的问题表示成遗传空间的染色体或者个体，适应度函数用来区分群体中个体（问题的解）的好坏，选择操作基于适应值对个体进行选择，交叉操作实现个体间的基因交换，变异操作则是对个体基因进行随机改变。其中，遗传算法是一种全局优化算法，能够有效地进行概率意义的全局搜索，具有较强的鲁棒性，适合于求解复杂的优化问题。因此，在实际应用中，需要针对具体问题进行深入研究，制定合适的规划策略和算法，并进行不断的测试和优化，以确保最终规划出的路径是最优的。适应度评估通常基于路径的成本，例如路径的长度或旅行时间。

2023-10-17 06:29:28 1030

原创强化学习的几种主要的方法

策略梯度方法通过直接在策略空间中进行优化来更新策略。Actor-Critic方法则是结合了基于值的方法和基于策略的方法，它通过一个值函数来评估策略的表现，并使用一个策略梯度更新算法来改进策略。α-β剪枝是一种在树中搜索最优策略的算法，它通过剪枝来减少搜索的复杂度MCTS主要用于解决大规模、复杂的博弈问题，如围棋、象棋等。基于值的方法通过估计每个状态-动作对的价值来选择动作，基于策略的方法通过优化策略本身来选择动作，而基于搜索的方法则通过搜索所有可能的动作序列来找到最优策略。

2023-10-14 16:59:29 531

原创强化学习环境Gym库的介绍

Gym是一个用于进行强化学习实验的开源库，它提供了一个仿真环境，内置了多种仿真游戏，例如出租车游戏、悬崖游戏等，不同的游戏所用的网格、规则、奖励(reward)都不一样，适合为强化学习做测试。(1) 多种环境：Gym库内置了上百种实验环境，包括算法环境、简单文本环境、经典控制环境、Atari游戏环境、MuJoCo环境和机械控制环境等。(2) Gym提供多种环境供我们使用，这里以一个简单的CartPole-v0为例，首先导入gym库，然后创建一个CartPole-v0环境，通过调用gym.make方法实现。

2023-10-12 21:16:16 856

原创通信协议仿真的工具和方法

系统级仿真是一种基于概率模型的仿真方法，它通过模拟整个通信系统的行为来评估协议的性能。系统级仿真可以帮助用户理解协议在不同场景下的整体性能，并预测协议在不同环境中的行为。进程交互仿真是一种基于进程交互的仿真方法，它通过模拟协议中不同进程之间的交互来评估其性能。MATLAB是一种数学计算软件，也可用于通信协议仿真。事件驱动仿真是一种基于事件流的仿真方法，它通过模拟协议中的事件来评估其性能。总之，通信协议仿真是验证协议性能和正确性的重要手段，使用适当的仿真工具和方法可以帮助工程师快速、准确地完成仿真任务。

2023-10-12 20:57:09 350

原创数据融合的方法及典型应用

随着现代社会的快速发展，各种数据来源和类型越来越丰富，而在实际应用中，单一的数据源往往难以满足复杂问题的需求。因此，数据融合技术应运而生，成为处理多源数据的有效手段。本文将介绍数据融合的方法及在各个领域的典型应用。

2023-10-11 23:47:41 2764

原创马尔可夫决策过程及典型例子（一）

每次这样的时候，机器人都会决定是否应该（1）主动寻找罐头，（2）保持静止，等待有人给它带来罐头，或者（3）回到基地给电池充电。每当机器人进行搜索时，其电池都有可能耗尽。另一方面，当能级较低时进行的一段时间的搜索使其以概率β变低，并以概率1-β耗尽电池。机器人收集的每个罐子都算作一个单位奖励，而每当机器人必须获取能量时，就会得到的奖励。当能量水平很高时，充电总是愚蠢的，所以我们不将其包括在该状态的动作集中。这些量完全指定了有限状态MDP，由此可以计算出关于环境的任何其他信息，例如状态-动作对的预期奖励，

2023-10-11 20:54:11 1552

原创 PPO算法的MATLAB实现（伪代码）

对于每个体验(s,a,r,s')，计算优势函数 A(s,a;）算法是一种在保持稳定训练的同时，允许更大程度地更新政策的策略优化算法。对策略进行近端更新：θ = clip(θ + α * ∇θ。但请注意，这只是一个基础版本，并没有考虑很多实际中需要处理的问题，比如梯度裁剪、高维动作空间等。计算当前策略的预期优势函数 A(s,a;，还需要考虑更多细节，例如如何设定学习率、如何选择优势函数的折扣因子、如何处理高维动作空间等问题。虽然也可以实现强化学习，但是并不像其他框架那样得到广泛的运用。是优势函数的折扣因子。

2023-10-11 00:00:25 1111 1

原创马尔科夫性质的一些例子

除了了解自己的牌之外，抽牌的状态还应该包括其他玩家的赌注和抽到的牌数。此外，在任何真正的推车-杆系统中，总是存在其他影响，如杆的弯曲、车轮和杆轴承的温度以及各种形式的齿隙，这些影响都会对系统的行为产生轻微影响。尽管观察到的关于其他玩家的一切可能会影响他们握着各种手的概率，但在实践中，这太多了，无法记忆和分析，而且大多数都不会对一个人的预测和决定产生明确的影响。一些早期的学习解决极点平衡任务的研究使用了一个粗略的状态信号，该信号将推车位置分为三个区域：右、左和中（以及其他三个内在状态变量的类似粗略量化）。

2023-10-10 21:26:13 166 1

原创马尔科夫性质

理想情况下，我们想要的是一个状态，它总结了过去的感觉，保留了所有相关信息。例如，跳棋的位置——棋盘上所有棋子的当前配置——将作为马尔可夫状态，因为它总结了导致它的完整位置序列的所有重要信息。它的意义独立于通向它的信号的“路径”或历史。在所有这些情况下，环境中都存在隐藏的状态信息，如果智能体知道这些信息，那么这些信息将是有用的，但智能体无法知道，因为它从未接收到任何相关的感觉。可以证明，通过迭代这个方程，可以仅从当前状态的知识中预测所有未来状态和预期回报，并且在给定到当前时间的完整历史的情况下也是可能的。

2023-10-08 22:01:35 41 1

圣诞节快到了，写个电子贺卡吧

2023-12-25

基于HTML的贪吃蛇小游戏

html益智游戏基于HTML的贪吃蛇小游戏

2023-11-12

Html5+js 写的一个简单的模拟经营游戏

html益智游戏 Html5+js 写的一个简单的模拟经营游戏

2023-11-12

Html小游戏-爱心鱼

html益智游戏 Html小游戏-爱心鱼：结合HTML、js、css的小游戏

2023-11-12

智能车开源，python，html

智能车，智能车开源，python，html

2023-11-11

给定一个前序的字母字符串，并把它们创建成一个二叉树，并且遍历输出它的中序和后序

二叉树的创建与遍历，给定一个前序的字母字符串，并把它们创建成一个二叉树，并且遍历输出它的中序和后序

2023-11-11

二叉树的创建与遍历，C语言实现

2023-11-11

二叉树的遍历，前序遍历中序遍历后序遍历

2023-11-11

这是一个计算机导论大作业

2023-11-11

强化学习-深度质量网络（DQN）-过山车实例

依旧是个简单的小项目，不断训练学习，网络终于知道如何利用重力和加速度了。命名都为中文，尽可能地贴近其所描述的含义。深度质量网络（DQN，Deep Quality-Networks），它脱胎于质量学习函数（Q-learning，quality-learning）

2023-11-11

这是一个简介自我介绍网页设计作业

2023-11-11

智慧园区管理系统：基于园区业务，深度挖掘流程与系统的关键结合点，发挥互联网的优势，系统主要实现园区的资产管理，企业服务及档案管理

基于园区业务，深度挖掘流程与系统的关键结合点，发挥互联网的优势，系统主要实现园区的资产管理，企业服务及档案管理，园区的活动及商城的搭建。智慧园区是用信息技术为手段、智慧应用为支撑，全面整合园区内外的资源，使园区管理服务等更高效便捷，实现基础设施网络化、管理信息化、功能服务精准化和产业发展智能化，全面提升园区信息化管理水平。打造城市代言，智慧城市缩影、打造产业基地，谋求跨越发展、传感网、物联网等战略性新兴技术的示范应用；向规模化、集群化、现代化升级、资源集中化，成本优势，规模优势，产业链协同、物流配套畅通。（请敬请期待,正在开发！！）

2023-11-11

一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站

一些常见的网站爬虫例子，代码通用性较高，时效性较久。项目代码对新手比较友好，尽量用简单的python代码，并配有大量注释

2023-11-11

多元预测模型在混沌时间序列上的应用

时间序列预测（Time series forecasting），用历史观测值来预测时间序列在未来时间步上的值，可以粗略地分为两类：单步和多步预测 [Pan2020]. 给定一个长时间序列 X∗ 和一个有固定长度 T 的回看窗口，基于过去 T 步的历史值 Xt−T+1:t=xt−T+1,…,xt ，在 t 时刻的单步预测值只有一个 X^t+τ:t+τ=xt+τ ，而多步预测值有多个 X^t+1:t+τ=xt+1,…,xt+τ ，其中 τ 是预测步长（horizon），xt∈Rd 为序列在时间步 t 的值，d 是时间序列的条数. 为了简便，随后的讨论中我们忽略下标，用 X 和 X^ 分别来表示历史数据和预测值. 对于多步预测，我们既可以直接用多步预测的目标（直接多步估计，direct multi-step (DMS) estimation），也能通过迭代使用一个单步模型得到多步的预测（迭代多步估计，iterated multi-step (IMS) estimation）. 但选择使用 DMS 或 IMS 方法时，需要权衡 “预测误差”、“估计方差”、“预测步长

2023-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

圣诞节快到了，写个电子贺卡吧

基于HTML的贪吃蛇小游戏

Html5+js 写的一个简单的模拟经营游戏

Html小游戏-爱心鱼

智能车开源，python，html

给定一个前序的字母字符串，并把它们创建成一个二叉树，并且遍历输出它的中序和后序

二叉树的创建与遍历，C语言实现

二叉树的遍历，前序遍历 中序遍历 后序遍历

这是一个计算机导论大作业

强化学习-深度质量网络（DQN）-过山车实例

这是一个简介自我介绍网页设计作业

智慧园区管理系统：基于园区业务，深度挖掘流程与系统的关键结合点，发挥互联网的优势，系统主要实现园区的资产管理，企业服务及档案管理

一些非常有趣的python爬虫例子,对新手比较友好,主要爬取淘宝、天猫、微信、豆瓣、QQ等网站

多元预测模型在混沌时间序列上的应用

国赛美赛数学建模相关算法 MATLAB实现

记录一些MySQL、Redis面试题以及一些常见的算法题 获取最新MySQL面试题

这是一个Java后端开发面试题

某一家公司的面试题目，只能说这么多了

用来根据一个文件生成哈夫曼编码，数据结构的课程设计的常见题型

C++实现哈夫曼编码对文本的压缩与解压

这是一个用react写的简历

这是一个记录人们言论的数据集

基于SpringBoot的后台管理系统

NEU计算机网络实验2，SOCKET 端口扫描以及 SOCKET 通信（聊天室） 本项目为客户端

链式编程、手写promise

这里是C语言集训营，存放的代码、题目代码、笔记等

C++ JSON格式的字符串解析

通过注释解析yolo源码，detect.py train.py yolo.py

基于springcould所写的电商项目，使用了rabbitmq，es等等技术

一个DSP滤波器设计工具，可以设计多种FIR和IIR滤波器

fir 滤波器的c语言实现

自适应滤波器，回声消除学习

扩展卡尔曼滤波器，平方根扩展卡尔曼滤波器（SR-EKF），无迹卡尔曼滤波器（UKF），平方根无迹卡尔曼滤波器（SR-UKF

FIR的设计任务是选有限长度h(n)使传输函数满足技术要求，采用TMS320C5402芯片

使用Matlab的filterDesigner设计的滤波器

CIC抽取滤波器RTL与仿真

verilog下的可变字长，32阶自适应滤波器

blind-source-separation 盲源分离

基于密度的聚类与时频域稀疏重构相结合的欠确定卷积盲源分离

Trading Environment(OpenAI Gym) + PPO(TensorForce)

空空如也

二叉树的遍历，前序遍历中序遍历后序遍历

记录一些MySQL、Redis面试题以及一些常见的算法题获取最新MySQL面试题

NEU计算机网络实验2，SOCKET 端口扫描以及 SOCKET 通信（聊天室）本项目为客户端