- 博客(35)
- 资源 (5)
- 收藏
- 关注
原创 关于天线的增益
第二天线如果和设备用同样的思路去理解即输入是天线输入口,输出即天线辐射到空间的能量总和,对于无源天线这个比值一定是小于1,或者是负数dB,即损耗,或者叫天线的效率,不同说法描述同样的事情;第四为啥天线明明是损耗了能量,计算时却变成了加天线增益,因为我们关注的时在天线以外某点空间上的能接收到的能量,在计算空间损耗时是按照点源天线的损耗计算的(因为这么算容易计算和理解),所以先把原有天线等效为对应点源天线,当然输出能量也得换算,注意这里是等效计算,并不是真的能量增大了。
2024-10-31 09:50:57 219
原创 RL进阶(一):变分推断、生成模型、SAC
形式上,隐变量既不是直接获取的证据变量,也不是所关心的目标变量,但是有助于建立证据变量和目标变量之间的联系。比如上面的图片中有三堆相对集中的数据,实际上数据并不包含颜色信息,但是一看这张图片我们可能就会使用一个多元正态分布去拟合这些数据。这里面的隐变量实际上是一个离散的类别变量。这里体现了一种强大的计算方式,即用简单分布分乘积的积分表示以一个非常复杂的积分。,那么什么样的分布最可能产生这样的数据?的数据,我们可能会使用像多元高斯这样的概率模型去拟合这些数据。出现的概率,比如强化学习中的策略函数。
2024-09-25 10:57:03 43
原创 IEEE Signal Processing Letters投稿记录
4个审稿人,3个同意接收,1个拒绝。审稿意见中规中矩,没有太刁钻的问题,有两个审稿人提的意见比较中肯,但都是讨论,无需修改论文。2023.03.18 AQ(ACCEPTED WITH MANDATORY CHANGES)小修,给了两周时间。:总结起来,3个月拿到AQ,修改10天,AE在14天后录用,总用时将近4个月。2023.03.24 Outstanding Revision Reminder催我提交修改稿。2022.12.20 Prescreen编辑部预审。2023.04.03 提交返修稿。
2023-04-25 01:06:38 2271 9
原创 多智能体强化学习环境【星际争霸II】SMAC环境配置
多智能体强化学习这个领域中,很多Paper都使用的一个环境是——星际争多智能体挑战(StarCraft Multi-Agent Challenge, SMAC)。最近也配置了这个环境,把中间一些步骤记录下来。
2022-12-26 11:26:12 3883 1
原创 DRL经典文献阅读(二):确定性策略梯度(DPG+DDPG)【附代码】
在强化学习这一领域中,智能体的策略可以分为两类,即随机策略πθ(a∣s)=P[a∣s;θ],表示在状态sss下根据参数θ\thetaθ随机的概率选择动作aaa;确定性动作a=μθ(s)a=μθ(s),该策略在状态sss下根据参数θ\thetaθ确定性地给出唯一动作aaa。
2022-11-15 22:48:21 619
原创 脉冲雷达系统设计与Matlab仿真【附仿真代码】
本文主题:雷达分类、作用距离、分辨率、雷达方程、脉冲积累、噪声系数实验:设计一个相对完整的脉冲雷达系统,实现对目标的搜索和探测,并用matlab进行仿真
2022-10-24 21:48:02 10132 80
原创 接收灵敏度和等效噪声带宽(ENBW)
接收机通常包含窄带硬件滤波器以及数字信号处理(DSP)中实现的窄带低通滤波器。等效噪声带宽(ENBW)是了解这些滤波器中噪声底限的一种途径。为了估计接收机设计的灵敏度,了解包括ENBW在内的噪声至关重要。本文将介绍用于计算接收器灵敏度的每个模块的特点,然后将它们放在一起进行计算。
2022-10-20 09:30:00 4908
原创 【2022·深度强化学习课程】深度强化学习极简入门与Pytorch实战
强化学习作为行为主义人工智能学派的典型代表,近几年与深度神经网络相结合形成的深度强化学习(DRL),达到了令人惊叹的智能水平:2015年DQN智能体玩视频游戏超越人类水平,2017年基于PPO算法的Open Five在《Dota》游戏中战胜人类顶尖职业玩家,2019年基于DRL的AlphaStar在《星际争霸II》游戏中战胜人类顶尖职业玩家。然而,深度强化学习理论较为抽象,学习曲线陡峭,需要大量的时间和精力才能入门,很多硕士和博士往往浪费了大量时间在入门阶段,耽误了学习和科研进度。
2022-10-18 19:20:20 1716
原创 DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)
将强化学习目标函数记为ρ\rhoρ,策略的参数记为θ\thetaθ。在策略梯度中,策略的参数通过梯度提升方式进行更新,更新部分与梯度成成比:∇θ≈α∂ρ∂θ(1)\nabla\theta\approx \alpha\frac{\partial\rho}{\partial\theta}\tag{1}∇θ≈α∂θ∂ρ(1)智能体的目标函数,常用的定义方式有两种。第一种是多步取均值的方式ρ(π)=limn→∞1nE{r1+r2+⋯+rn∣π}=∑sdπ(s)∑aπ(s,a)Rsa(2)\rho(\pi
2022-10-17 19:15:32 587
原创 DRL应用实战(三)——AI奥林匹克·相扑RL智能体高分方案【附代码】
在训练的过程中,会将阶段性的表现较好的RL智能体本身加入到对手池中,让智能体与自己的历史版本进行对抗学习,这一点借鉴了self-play。RL算法为PPO,动作为连续动作(force、angle),神经网络为2层的MLP,每层128个神经元,使用tanh激活,详细情况请参考后面给出的代码链接。有谁如果有兴趣可以使用官方给出的基于原始像素的RL去训练,看看能不能战胜我在代码里面给出的几个比较强一点的RL智能体(这里几个智能体都是使用最强的rule-based智能体训练出来的)。原因太多,每次的验证太费时间。
2022-10-16 16:51:43 673
原创 Python软件无线电(1):概述
使用Python处理无线通信相关的问题,甚至是构建软件无线电平台(SDR),我想最大的优势在于能够使用当前日新月异的智能算法,快速验证一些想法。这个教程,从原理到代码,注重从视觉上用图来解释公式背后的含义,难能可贵。
2022-09-15 11:55:59 1456
原创 DRL基础(十二)——近端策略优化算法PPO【附代码】
2016年10月OpenAI公司发布了《Dota2》强化学习游戏智能体OpenAI Five,并且经过多年的开发训练后战胜了当时的世界冠军团队OG,技术细节可以看发表的论文。OpenAI Five的核心算法是PPO,一种称为近端策略优化的算法,属于策略梯度算法的一种。OpenAI Five和PPO的成功大大增加了AI研究者对强化学习解决复杂问题的信心,PPO也成为使用强化学习解决各类问题的一个基准算法。PPO属于策略梯度算法,即通过求解强化学习问题中目标函数的梯度,利用梯度提升的方法训练强化学习智能体。这
2022-09-14 22:28:06 1732
原创 DRL基础(十一)——策略梯度方法REINFORCE【附代码】
讲解策略梯度基本理论讲解REINFORCE算法基本原理基于Pytorch实现REINFORCE算法
2022-09-05 09:38:29 1077
原创 DRL基础(十)——深度Q网络 (DQN)完全教程【附代码】
讲解DQN基本理论,基于Pytorch实现DQN算法,开发智能体控制月球车着陆,DQN完整代码下载链接见文末
2022-06-07 16:49:53 940
原创 DRL应用实战(一)——开发德州扑克RL智能体【附代码】
背景:德扑智能体比赛:http://www.jidiai.cn/compete_detail?compete=20,奖金1w。特点:自己开发的智能体能够在线和别人的智能体对战。1 pettingzoo德州扑克-无限制版 游戏规则观测空间:一个54维的向量,每一维取值为0或1,1表示出现,0表示没出现。索引含义取值0~12黑桃A~K[0,1]13~25黑桃A~K[0,1]26~38黑桃A~K[0,1]39~51玩家1所有下注[0,1].
2022-05-30 11:24:36 653 1
原创 多智能体深度强化学习综述与批判——Matthew E. Taylor
这篇综述是华盛顿大学的Matthew E. Taylor总结的,“A Survey and Critique of Multiagent Deep Reinforcement Learning”。下载链接:http://arxiv.org/abs/1810.05587v3。0. 摘要深度强化学习(Deep Reinforcement Learning, DRL)近年来取得了突破性的成果,出现了大量与之相关的算法和应用。最近的很多研究已经不仅仅局限于单智能体强化学习,进而开始研究多智能体学习场景下的深度强
2022-05-27 23:06:46 1282
原创 DRL基础(九)——深度学习基础:神经网络基础知识与Pytorch实战一篇全讲清楚
【引言】上一篇文章介绍了深度许学习中的梯度优化相关理论及Python实现。但是什么样的函数拟合能力强,还能很容易求解它的梯度呢?那便是神经网络了。介绍神经网络的资料应该是相当丰富了,这里力求以 必要最小 的原则进行介绍,希望读者能够通过本文以及接下来两篇文章掌握深度强化学习所需的深度学习必要知识。 本文介绍神经网络基础知识:全连接神经网络、Pytorch深度学习框架、神经网络的训练和调优等。保持以往文章的风格,本文将给出代码。中英文术语对照表中文英文缩写或符号人工神经.
2022-05-25 15:07:30 546 2
原创 DRL基础(八)——深度学习基础:梯度下降及Python实现
【引言】上一篇文章总结了表格型强化学习的主要内容,从这篇文章开始将介绍深度学习相关内容。先从数值优化开始吧,因为不管看起来多么高端的神经网络模型,最终都需要通过数值优化这个工具去训练。本质上还是在寻找极值、可行解等。文章目录中英文术语对照表1 函数拟合1.1 损失函数2 梯度优化2.1 损失函数的梯度计算2.2 利用梯度寻找函数的极值3 实验验证中英文术语对照表中文英文缩写或符号优化optimization-梯度gradient∇\nabla∇梯度下.
2022-05-17 19:05:08 736
原创 DRL应用实战(二)——“AI奥林匹克”RL智能体获奖方案【代码下载链接见文末】
【引言】是骡子是马,拉出来遛遛。报名参加了中国科学院自动化研究所举办的“奥林匹克 综合”的人工智能比赛。这是一个侧重于强化学习智能体开发的比赛。相比于机器学习比赛,强化学习智能体开发赛最近一两年才出现。上个月参加了一次,拿了前五。现在再次参加一个更有挑战的RL比赛,练练手,本文就作为参赛记录吧。——2022.05.16文章目录中英文术语对照表1 赛题1.1 比赛背景1.2 比赛科目1.3 参赛方式1.4 参赛步骤1.5 奖项设置1.6 赛程安排1.7 具体赛程1.8 参赛资料2 比赛记录2.1 热.
2022-05-16 21:09:31 1384 12
原创 DRL基础(七)——小结:表格型强化学习
为学日益,为道日损。——《老子》第四十八章不知不觉已经将强化学习中的表格型方法主要内容写完了。这可是走过了RL发展的好几十年的历史呢!老子说,为学日益,为道日损。知识应当多多益善,但是如何从形式上的知识转化为自己真正认同的道呢?{}介绍了强化学习发展历史,强化学习问题的形式化描述(马尔可夫决策过程、贝尔曼方程)、蒙特卡洛思想和算法、记忆时间差分思想和算法,还通过编程实现了相关算法并解决OpenAI Gym中的一些棋牌游戏和路径规划问题。内容汇总如下:深度强化学习极简入门(一)——强化学习发展历史简.
2022-05-14 23:56:16 281
原创 DRL基础(六)——强化学习中的时间差分方法(Sarsa、Q-learning)
【引言】上一篇文章介绍了表格型强化学习中的蒙特卡洛方法及其实现。这篇文章将介绍强化学习中的一类重要思想——时间差分(Temporal difference, TD)思想,以及该思想衍生出的两个重要算法:SarsaQ-learning了解原理后将实现这两个算法,并且在“悬崖行走”环境中对算法进行测试。文章目录中英文术语对照表1 强化学习中的时间差分算法1.1 Sarsa算法1.1.1 原理介绍1.1.2 算法伪代码1.2 Q-learning算法1.2.1 原理介绍1.2.2 算法伪代码2 .
2022-05-12 21:28:07 528 4
原创 DRL基础(五)——强化学习中的蒙特卡洛方法
【引言】前面利用马尔可夫决策过程这一数学工具对强化学习进行了形式化描述,并给出了强化学习智能体的目标函数。那么如何找到最优策略来最大化目标函数?最优策略存在吗?是唯一的吗?在回答这些问题之前,先考虑一下问题想细致一点。首先,状态是智能体决策的依据,状态是连续的还是离散的?可不可以一一枚举出来?其次,智能体的动作是连续的还是离散的?可不可以很方便地列出来?假设状态和动作都是离散的并且能够方便地列出来,这样问题就变得好处理一些了,因为可以使用一张表格,将不同状态下的不同动作所对应的未来收益记录下.
2022-05-02 11:39:47 2276
原创 DRL基础(四)——编程:python与numpy基础
【摘要】人生苦短,我用Python!现代深度强化学习,包括多智能体强化学习,研究者大多使用Python进行试验验证。主要的原因就是Python语言较为贴近自然语言,入门容易,具有各种方便好用的功能包。研究者可以快速开发出各种应用环境验证强化学习算法,实现研究论证与论文发表。本文包含以下内容:Python语言介绍、数据类型、语法、数据结构,类。Numpy的使用:基于Python的数学运算包,是Tenorflow和Pytorch的基础。文章目录1 Python介绍2 基本python语法2.1 .
2022-05-02 09:11:57 1163
原创 DRL基础(三)——价值函数与贝尔曼方程
【引言】上一篇文章利用马尔可夫决策过程这一数学工具对强化学习进行了形式化描述,并给出了强化学习智能体的目标函数。那么如何找到最优策略来最大化目标函数?最优策略存在吗?是唯一的吗?在回答这些问题之前,先引入价值函数和贝尔曼方程这两个工具对强化学习进行更加具体的过程性描述。在此基础上,介绍最优价值函数和最优策略等概念。目录中英文术语对照表1. 价值函数1.1 状态价值函数1.2 动作价值和函数2. 贝尔曼方程2.1 基于状态价值函数的贝尔曼方程2.2 用vπ(s)v_\pi(s)vπ(s)表示qπ(s.
2022-04-25 23:12:11 1524
原创 基于Python的信号处理(2)——离散傅里叶变换DFT
【摘要】 使用Python实现离散傅里叶变换 参考书目:《数字信号处理——原理、算法与应用》第四版 这是一个笔记,不一定全面 本文主题:DFT、IDFT、numpy目录1. 离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)1.1 基本公式1.2 代码实现1.3 绘制信号时域和频域图1.4 增大NNN,提高频谱分辨率1. 离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)1.1 基本公式设信号离散信号x(n)x(n)x(n)的长度为LLL,变换成长度为NNN(N≥LN\g.
2022-04-24 16:22:21 6188
原创 基于Python的信号处理(1)——信号基础知识
使用Python进行信号处理 参考书目:《数字信号处理——原理、算法与应用》第四版 这是一个笔记,不一定全面 本文主题:数字信号基本知识目录1. 信号的数学表达1.1 连续时间正弦信号1.2 离散时间正弦信号1. 信号的数学表达1.1 连续时间正弦信号给定一个连续信号xa(t)=Acos(Ωt+θ)x_a(t)=A\text{cos}(\Omega t+\theta)xa(t)=Acos(Ωt+θ)它由三个参数完全表征:幅度AAA、频率Ω\OmegaΩ、相位θ\theta...
2022-04-18 09:43:00 5406
原创 DRL基础(二)——使用马尔可夫决策过程(MDP)描述强化学习
强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的强有力的工具——马尔可夫决策过程。
2022-04-17 01:04:09 3418
原创 DRL基础(一)——强化学习发展历史简述
【摘要】这篇博客简要介绍强化学习发展历史:起源、发展、主要流派、以及应用举例。强化学习理论和技术很早就被提出和研究了,属于人工智能三大流派中的行为主义。强化学习一度成为着人工智能研究的主流,最近十年多年随着以深度学习为基础的联结主义的兴起,强化学习在感知和表达能力上得到了巨大提升,在解决某些领域的问题中达到或者超过了人类水平:在围棋领域,基于强化学习和蒙特卡洛树搜索的AlphaGo打败了世界顶级专业棋手;在视频游戏领域,基于深度强化学习的游戏智能体在29款Atari游戏中超过人类平均水平;在即时战略游戏领.
2022-04-16 23:46:12 10834 1
原创 标强化学习基本假设之——回报函数假设
考虑以下命题:“我们所有目标和目的都可以通过最大化接收到的标量信号(也称为奖励)和的期望来实现。”这是真的?假?一个定义?无法伪造?欢迎大家就该假设发表评论,一两句也行。比如,“是的”,“不是的”。这是我最喜欢的“零假设”,以至于我有时将其简称为零假设。对这个非常基本的问题所持有的立场是很关键的,这样后面才可以更清晰,明智地谈论很多其他问题。迈克尔·利特曼(Michael Littman...
2020-01-01 15:57:13 1615
原创 多智能体强化学习综述-Lucian Busoniu
这篇文章对多智能体强化学习(MARL)的背景,目标设置,常用算法进行了梳理,并对后续MARL的发展做出展望。
2019-06-19 11:51:54 32099
原创 XGBoost+LightGBM+LSTM:一次机器学习比赛中的高分模型方案
目录1 数据探索与数据预处理 21.1 赛题回顾 21.2 数据探索性分析与异常值处理 21.3 相关性分析 52 特征工程 82.1 光伏发电领域特征 82.2 高阶环境特征 112.3 特征选择 113 模型构建与调试 113.1 预测模型整体结构 113.2 基于LightGBM与XGBoost的模型构建与调试 123.3 基于LSTM的模型构建与调试 133.4 ...
2018-09-23 01:25:06 46310 33
翻译 RL综述(一):强化学习综述(Kaelbling、Littman等1996)
作者:Michael L. Littman等摘要这篇文章从计算机科学的角度对强化学习这一领域进行了研究,并且尽量写的让熟悉机器学习的相关研究者能够较为容易的读懂。我们研究了强化学习这一领域历史上的基础,也广泛总结了当今研究的主流选择。强化学习是关于智能体通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题。这篇文章与心理学上的研究有一定的关系,但更值得注意的是,这里的强...
2018-07-14 22:09:18 13393 5
XGBoost+LightGBM+LSTM-光伏发电量预测【模型+数据】
2024-09-25
强化学习经典文献R-learning
2022-10-17
AI-奥林匹克·相扑比赛高分强化学习智能体实现代码
2022-10-16
深度强化学习DQN算法源码【Pytorch实现·超详细注释】
2022-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人