自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 【深度强化学习】离线强化学习(Offline Reinforcement Learning)和在线强化学习(Online Reinforcement Learning)

离线强化学习(Offline Reinforcement Learning)和在线强化学习(Online Reinforcement Learning)是两种强化学习的不同范式,它们的主要区别在于数据的获取方式和使用场景。离线强化学习就像是通过看别人开车的录像学习一样,你使用预先准备好的数据(录像)来学习如何做出最佳决策。离线强化学习更侧重于利用预先收集好的数据进行策略学习,而在线强化学习则更侧重于通过与环境的交互实时地学习和优化策略。

2024-05-27 10:36:25 458

原创 【深度强化学习】多智能体强化学习(MARL)在无线传感网络(WSN)中的应用(二)

当涉及到无线传感器网络(WSN)中的多智能体强化学习(MARL)应用时,以下是一些更多的具体例子:

2023-12-21 23:03:39 421

原创 【深度强化学习】多智能体强化学习(MARL)在无线传感网络(WSN)中的应用(一)

在无线传感器网络(Wireless Sensor Networks,WSN)中,多智能体强化学习(MARL)可以应用于优化无线传感器节点的协同操作、资源分配和网络性能。这些应用场景突显了MARL在WSN中的潜在价值,它能够通过智能的学习和协同操作,提高无线传感器网络的效率、能源利用率和鲁棒性。

2023-12-21 22:59:39 474

原创 【深度强化学习】多智能体强化学习应用场景

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)是强化学习领域的一个分支,主要涉及多个智能体协同学习或竞争学习的问题。

2023-12-21 22:49:39 734

原创 【深度强化学习】Double DQN 算法

Double DQN(Double Deep Q-Network)算法的主要好处在于缓解 DQN 在估计 Q-value 时可能出现的过高估计问题。Double DQN 的核心目标是通过引入目标网络来减轻 DQN 中 Q-value 过高估计的问题。总体而言,Double DQN 通过引入目标网络,使得 Q-value 估计更加准确,提高了在深度强化学习任务中的性能表现,尤其在。Double DQN 保留了 DQN 的其他优势,例如经验回放和目标网络,这些优势有助于提高算法的性能和稳定性。

2023-12-17 10:04:26 556 1

原创 NP-hard问题(NP-难问题)

"NP" 的全称是 "Nondeterministic Polynomial time" 的缩写,翻译为中文是“

2023-12-16 23:06:30 3719

原创 【深度强化学习】策略网络和价值函数网络分别是什么?

价值函数网络是一个神经网络,用于估计在给定状态或采取某个动作后能够获得的。策略网络是一个神经网络,用于建模智能体的策略,即在。

2023-12-16 21:57:26 969

原创 【深度强化学习】MA-PPO算法

MA-PPO(Multi-Agent Proximal Policy Optimization)算法是基于 PPO 的一种多智能体强化学习算法,旨在处理多智能体环境中的协同问题。MA-PPO 在多智能体环境中的成功关键在于经验共享和中心化-分布式训练,这样不同智能体可以共同学习,提高整体性能。对每个智能体的策略网络进行更新。智能体通过与环境交互,收集经验数据,并将这些数据存储在共享的经验池中,以便其他智能体可以访问和学习。使用值函数网络计算每个智能体的优势函数,衡量其选择的动作相对于平均水平的优越性。

2023-12-16 21:34:13 972

原创 【深度强化学习】PPO算法

PPO是一种用于策略优化的强化学习算法,旨在提高训练的稳定性和效率。其核心思想是通过比较新旧策略,以渐进的方式更新策略,同时引入一个剪切项来控制更新的大小,从而防止过度的策略变化。使用 PPO Loss 函数进行策略网络的更新。PPO Loss 由两部分组成,一部分是优势加权的策略损失,另一部分是剪切项,限制单次更新的幅度。PPO算法的关键在于通过对比新旧策略,引入剪切项,来渐进地更新策略,确保在学习过程中保持相对的稳定性。使用值函数网络计算每个状态的优势函数,即估计的未来累积回报相对于状态值的差异。

2023-12-16 21:33:45 647

原创 【深度强化学习】动作价值函数Q、状态价值函数V

动作值函数(Action-Value Function)和状态值函数(State-Value Function)是强化学习中两个关键的价值函数,用于评估智能体的行为和状态。动作值函数关注在给定状态下采取某个具体动作的价值,而状态值函数关注在给定状态下按照某个策略行动的总体价值。动作值函数和状态值函数之间有关系,特别是在策略确定的情况下。这两个函数在强化学习中用于帮助智能体理解和优化其行为策略,以最大化累积回报。当且仅当智能体在状态。

2023-12-16 21:32:57 2211

原创 【深度强化学习】强化学习的基本概念

本博客将会陆续更新一些强化学习的心得,供大家参考

2023-12-16 17:33:33 523

AD30收发数据_tmp(两路温度LoRa发送到电脑).zip

两路 DS18B20 +51单片机测量温度 +LoRa模块发送数据. 1、DS18B20是一个对时序控制极其严苛的系统,所以延时控制非常重要!!时序顺序非常重要!! 2、STC12C5A60S2机器周期是1T 3.https://blog.csdn.net/Ele_PPP/article/details/88712895(参考资料地址)

2020-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除