- 博客(53)
- 收藏
- 关注
原创 HPPO混合动作PPO算法
这意味着动作的选择是通过一组实数或向量来表示的,而不是通过离散的标识符。例如,一个机器人在连续的动作空间中选择它的速度和方向,这两个参数可以是实数,表示机器人在每个时刻的线速度和角速度。参数化动作空间通常出现在需要处理连续动作的问题中,其中动作的可能取值是一个连续的范围,而不是一个离散的集合。在这种情况下,使用参数化动作空间的方法可以更灵活地表示和控制动作,有助于应对连续性动作空间带来的挑战。这是一个离散动作空间的例子。在强化学习中,参数化动作空间是指使用参数来表示和控制智能体可选取的动作的一种方法。
2024-04-18 11:27:22 697 1
原创 无线通信之网络模型(文献拓展)
总结起来,PCP分布是一种用于描述聚集性现象的离散概率分布,它基于子区域(或子时段)内事件发生的独立泊松分布,并通过聚集因子的分布来描述事件的聚集性。总之,Server and Network-Assisted DASH(SAND)是一种增强版的DASH流媒体技术,通过利用服务器和网络资源来改善流媒体服务的性能和质量,以确保观众获得更好的流畅观看体验。总的来说,云RAN是一种新的基站架构,它通过虚拟化和集中化,提供更高的灵活性、成本效益和资源管理能力,有助于改善移动通信网络的性能和效率。
2024-04-15 09:38:21 723
原创 点云的基本知识
不同于图像,三维点云在表示物体时,只有物体表面有点云数据,如果是在实际的场景下,往往只有面向雷达的一面才会有数据产生。三维空间中的点云不会像图像那样,规规矩矩的在一个个的像素点排好队,点云并没有顺序,这给处理上带来极大的困难。对点云进行体素化是将连续的三维点云数据转化为离散的三维体素网格的过程。NERF的网络结构通过学习从场景中的位置和方向到光线强度的映射,从而能够生成高质量的图像,包括真实感的光照和阴影效果。但是点云反应的却是实实在在的位置坐标信息,不同位置处的同一物体所表现出的数据特征是很大不同的。
2024-04-13 09:32:44 882
原创 分布式强化学习
首先,每个智能体通常与其它智能体以及环境中的关键点形成一个动态的、有时空特征的关系图。。节点可以代表不同的智能体,边可以代表智能体之间的交互或通信。图的空间结构捕捉了智能体之间的关系,而时间结构则捕捉这些关系随时间的变化。边可以表示智能体之间的相互作用、距离、通信或其他形式的关系,边上的权重可能反映这些关系的强度或重要性。
2024-04-12 21:41:16 717
原创 直播视频传输处理技术
视频源通常来自摄像机或智能手机摄像头,通过捕捉连续的画面生成原始视频信号。为了减少数据量以适应网络传输,原始视频信号需要经过高效视频编码器(如H.264、H.265等)进行实时编码和压缩。编码过程会去除冗余信息并降低视频质量至可接受的程度,同时保证流媒体的流畅性。编码后的视频流被封装成适合网络传输的格式(如RTMP、HLS、MPEG-DASH),然后通过直播软件或硬件编码器将视频流推送至内容分发网络(CDN)或者直接推送到直播基站。,可以提供稳定的上行带宽以及负载均衡功能。
2024-04-12 21:00:48 606
原创 NOMA免调度接入技术
因为根据星座图分析,用户2所需的速率低,因此只需要BPSK之类的星座图发送,易于检测。所以,根据全面的y1的公式,仍然选择对x2先进行检测,而不是看出噪声。反之用户2为R2. 它俩之间如上图连上一条线,线上所有的点的组合,反应的是正交接入下分配不同功率下的所有情况。上面已经讨论了P2>P1的情况,现在反过来看下P1>P2,信道增益条件不变h1>h2,对应的场景可以认为用户1正在请求视频,用户2只是一个码率需求低的物联网设备。←用户2 -------------------- 用户1→。
2024-03-25 21:57:17 768
原创 强化学习嵌入Transformer(代码实践)
在强化学习任务中,特别是在策略梯度方法中,通常不需要一个完整的Transformer模型,包括Encoder和Decoder。因此,我们可以只使用Transformer的Encoder部分,将状态作为输入,经过编码后得到一个表示状态的向量,然后将这个向量传递给策略网络(或者Critic网络)来进行动作选择或值函数估计。使用Transformer的Encoder部分可以有效地处理状态的变长输入,并且具有对序列建模的能力,这在处理许多强化学习任务中是非常有用的。注意:代码能跑,但是不能正常学习到策略!
2024-03-01 22:11:51 416
原创 多智能体强化学习--理论与算法
在单个智能体与部分可观测环境的交互过程一般使用部分可观测马尔可夫决策过程(partial observable MDP,POMDP)133][134][13]进行建模,其挑战来自部分观测难以恢复环境实际所处的马尔可夫状态,而马尔可夫性是强化学习的关键假设。在多智能体问题中,如果每个智能体观测到环境的局部信息,并且根据局部信息进行决策,这类问题称为去中心化POMDP问题(decentralized POMDP, Dec-POMDP)[136][137][138]。
2024-01-28 12:21:59 1057 1
原创 瑞利衰落信道仿真(Python)
的情况下,实际上是指 ( h ) 的实部和虚部分别独立地服从高斯分布 ( \mathcal{N}(0,1/2) ),因为复高斯分布的功率归一化到1。瑞利衰落信道模型通常用于描述多径效应下的信号衰落,其中衰落系数 ( h ) 是复数,并且其幅度服从瑞利分布,相位服从均匀分布。这是因为复数 ( h ) 的功率是实部和虚部平方和的一半,即 (),所以需要将方差设置为 ( 1/2 ),而标准差为 (注意,由于我们希望 ( h ) 的功率归一化为1,即 () 的期望值为1,因此我们使用标准差为 (
2024-01-28 12:21:34 772
原创 多智能体强化学习(概念知识,不涉及具体算法)
具体而言,对于给定的状态和动作空间,Boltzmann策略通过对每个动作的评分进行指数化处理,并对所有动作的指数评分进行归一化,得到每个动作的概率分布。网络结构可以是完全连接的、部分连接的或分层的,这取决于具体问题的设置和智能体之间的交互方式。它通过将其他智能体的行为视为环境的一部分,从而更好地解决了传统多智能体强化学习中的挑战,并为复杂的多智能体系统提供了一种有效的决策方法。MF-MARL的核心思想是,通过对均场状态分布的建模,每个智能体可以将其他智能体视为环境的一部分,并根据这个均场信息进行决策。
2024-01-13 17:40:00 1048
原创 自编码器的基本概念
稀疏自编码器就是普通自编码器的隐藏层加一个L1正则项,也就是一个训练惩罚项,这样我们训练出的编码器(encoder)表征的特征更加的稀疏,从而能得到少且有用的特征项。传统自编码器一般使用的是全连接层,对于一维信号并没有什么影响,但是对于二维图像或视频信号,全连接层会损失空间信息,而通过卷积操作,卷积自编码器能很好的保留二维信号的空间信息。总体而言,变分自编码器是一种强大的生成模型,通过引入概率分布和潜在变量的随机性,使得模型更能适应数据分布的复杂性,同时也提供了生成新样本的能力。
2023-12-26 15:10:48 957
原创 TDD和FDD两种模式下信道估计的主要区别
TDD是一种通信方式,其中在同一频谱上通过时间分割实现双向通信。这意味着在同一个频带上,通信系统在不同的时间片段内交替地进行上行(UL,Uplink)和下行(DL,Downlink)通信。
2023-12-26 10:19:13 1450
原创 PPO算法与DDPG算法的比较
Actor 网络输出在给定状态stπθat∣st)].PPO 迭代地更新这个 policy,以改进策略并提高性能。
2023-11-24 10:53:35 1520
原创 英文写作指南
逆思维:从英文翻译到中文时,可以加上一系列的范围限定词,比如…避免使用副词+weak word,替换成一个强烈的word。gerund:动名词的意思。与must连用就很不合适。
2023-10-24 15:16:59 99
原创 卡尔曼滤波器
其中,P(w)表示的是噪声的概率密度函数,服从均值为0,协方差矩阵为Q的正态分布。(这里的w是向量,所以要用协方差表示向量中各元素值之间的关系。注意,所有的状态变量都是用一个向量x表示的,所有的测量变量也是这样。(先验:理解成模型的计算结果;后验:理解成测量结果)注意,这里的T平方是状态转移矩阵里面的!z1、z2表示两个秤的测量值。
2023-09-21 19:32:27 66
原创 MIMO进阶
总结一下就是,h1、h2是两个用户的信道矩阵,w1和w2是发送端需要做的beamforming,如果能够满足w1和h2完全正交,此时用户一接收到的信号可以完全消除用户二的干扰。但是,如果h1和h2之间本身的正交性不好,这种寻找完全正交的w的方式会使得原本发送给用户1的信号投影到w1的分量很小!还有,这个h是需要在很多多径情况下符合复高斯分布的条件,这个在sub-6G频段上很容易满足,但在毫米波波长很多,多径数很少,因此不满足复高斯分布,所以信道硬化开始消失。但是空域可以经过DFT变换到角度域!
2023-08-27 21:13:03 256
原创 WMMSE
原来的最大化和速率的logdet(*)问题就写成了现在这个min(Tr()-logdet())问题,同时优化变量变成了三个。D表示所有Dk的求和,表示所有用户的符号数总和。N为所有用户天线数总和。多基站,每个基站单用户,且SISO。
2023-08-26 22:13:15 206
原创 MIMO暑期学习
b站视频如果考虑三发三收的场景,但信道矩阵的秩为2,此时就只能发送两个数据流c1、c2。但此时又有三根发射天线,因此此时利用SVD分解让两个数据流做precoding映射到三根天线上来。注意,v=(v1,v2,v3) 每个vi都是列向量,由于秩为2,所以v3没用,只需要(v1,v2)∗(c1,c2)T(v1,v2)*(c1,c2)^T(v1,v2)∗(c1,c2)T(即3行两列乘以2行1列,得到3行1列的列向量,也就是发射数据x1x2x3)文章考虑一发两收的情况下,然后可以计算得到:这个公式基于
2023-08-22 20:29:29 315
原创 【无标题】
off-policy中两种策略可以不同(也就是说也可以相同)然后用behavior policy与环境交互得到很多个experience后,再更新最后的target policy!J的梯度公式可以知道,采样的A必须满足π的分布,π也就是behavior policy,而π刚好也是需要改进的策略,即target policy。其次,这里只需要有一个数据就直接用于更新q-value,然后马上update policy,和以前介绍的算法是准确更新q-value的值不同。)也就是说改变w就可以改变。
2023-08-11 21:17:44 134
原创 重新学习强化学习--数学理论
关于 Episode length的设置,理论上应该是无穷大的(agent到达目标点后选择action为不动),但实际中需要一个确切的值,值越大越接近最优的策略,此时对应的state value也是最终的值。注意,这里s2,s3情况下的策略是最优的,所有改进策略一定是有效的,但可以证明,无论后面的策略是否最优,都可以经过action value的迭代最终达到最优策略。,此时我们不知道g(w)的具体表达式,如果有一个神经网络可以拟合g(w),我们可以将输入w看做方程的解,输出y需要等于0!
2023-08-11 13:47:04 187
原创 DRL--算法合集
但是也有一些算法可以同时使用策略和价值来做决策,比如演员-评论家算法(Actor-Critic),其中演员(Actor)是一个策略函数,评论家(Critic)是一个价值函数,演员根据评论家的评价来更新策略,评论家根据环境的奖励来更新价值。确定性策略的优点是简单、高效、易于实现;A3C 采用异步梯度更新的方式,不同的 worker 获取独立的经验后(一个 batch),独立的去更新 Global Network,当主网络参数被更新了以后,就用最新的参数去重置所有的 worker,然后在开始下一轮循环。
2023-05-30 09:55:27 722
原创 分层强化学习
在开始的时候,模型还没有学习到很好的策略,所以需要随机采样动作来探索环境,收集更多的经验。随着回合数的增加,模型逐渐学习到更好的策略,所以可以利用模型的输出来选择动作,提高奖励。例如,当智能体完成任务时,奖励为1,否则为0。这时,是否结束标志会被设为True,智能体会获得1.00的奖励,并且回合结束。如果智能体在其他状态下向左移动到状态1,也会结束回合,但只会获得0.01的奖励。这段代码也是用Python写的,用于计算一个二值化的奖励(reward),它是强化学习中的一个重要概念。
2023-05-17 23:23:16 265
原创 强化学习--稀疏奖励与约束处理
比如,在一个迷宫寻路问题中,除了给出到达终点的正奖励和每走一步的负奖励外,还可以给出接近终点的正奖励或远离终点的负奖励,以引导智能体更快地找到正确的路径。正奖励表示智能体做出的行为对任务有益,负奖励表示行为有害,而零奖励表示行为没有影响。过小的奖励可能无法提供足够的鼓励,从而导致智能体无法学会任务,过大的奖励可能会导致智能体出现过度拟合的现象,或者出现在任务中没有意义的行为。稀疏的奖励可能会导致智能体无法学习到正确的行为,而鲁棒的奖励可以帮助智能体克服环境中的噪声和异常情况,提高训练和性能的鲁棒性。
2023-05-17 14:17:10 1921
原创 强化学习之multi-step DQN
传统的DQN算法使用一步回报(one-step return),即在每个时间步只考虑当前奖励和下一个状态的Q值。Multi-step DQN的核心思想是使用一个固定的步数n来定义多步回报,记为n-step return。在每个时间步,从当前状态开始,执行n步动作,累积对应的奖励,并以n步后的状态的Q值作为目标值进行训练。对于每个样本,计算n-step return,即从当前步开始执行n步动作后的累积奖励。使用n-step后的状态的Q值作为目标值,计算损失并更新值函数近似器的参数。
2023-05-11 22:40:49 1476
原创 PPO算法(附pytorch代码)
PPO算法是一种强化学习中的策略梯度方法,它的全称是Proximal Policy Optimization,即近端策略优化1。PPO算法的目标是在与环境交互采样数据后,使用随机梯度上升优化一个“替代”目标函数,从而改进策略。PPO算法的特点是可以进行多次的小批量更新,而不是像标准的策略梯度方法那样每个数据样本只进行一次梯度更新12。PPO算法有两种主要的变体:PPO-Penalty和PPO-Clip。
2023-04-21 22:43:56 21919 17
原创 详解DDPG(附pytorch代码)
NormalizedActions是一个gym的ActionWrapper,它可以对任何一个gym环境的动作空间进行包装,从而实现动作空间的归一化。3. DDPG 的 actor 网络是一个确定性的策略网络,它直接输出一个具体的动作,而不是一个动作的概率分布。AC 的 actor 网络可以是一个确定性的或者随机性的策略网络,根据不同的变种而定。其中,第一项是Q值对动作的梯度,第二项是策略网络对参数的梯度。由于Q值是由值函数网络计算的,而不是直接由策略网络输出的,所以我们需要使用链式法则来求出梯度,即。
2023-04-21 18:50:35 2596 1
原创 强化学习DRL--策略学习(Actor-Critic)
策略学习的意思是通过求解一个优化问题,学出最优策略函数πa∣s或它的近似函数(比如策略网络)。
2023-03-21 23:09:35 439
原创 无线通信--波束赋形(附MATLAB代码)
Sub6G 频段,作为当前 5G 容量的主力军,载波带宽可达 100MHz,一般采用采用数字波束赋形,通过 64 通道发射来实现小区内时频资源的多用户复用,下行最大可同时发射 24 路独立信号,上行独立接收 12 路数据。在毫米波 mmWave 频段中,一般采用混合波束赋形:参考链接:https://zhuanlan.zhihu.com/p/35923884波束赋形矩阵的维度取决于天线阵列的数量。在基于线性天线阵列的波束赋形系统中,波束赋形矩阵通常是一个复数矩阵,其大小为 M×NM \times NM×N
2023-03-19 10:33:17 5905 1
原创 无线通信问题-杂记
在通信领域,backhaul通常指的是网络中连接核心网络和边缘设备的传输链路,用于传输大量的数据和信号。,而核心网络包括运营商的数据中心、核心路由器等。Backhaul连接可以是有线的或无线的,包括光纤、铜线、微波链路和卫星链路等,通常具有高带宽、低时延、高可靠性和高容量等特点。Backhaul是通信网络中的重要组成部分,其性能对网络的整体性能和用户体验有着重要影响。在移动通信系统中,随着无线接入技术的不断升级,例如5G和Wi-Fi6等,用户设备可以支持更高的数据速率和更低的延迟。
2023-03-18 12:54:48 804
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人