自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (5)
  • 收藏
  • 关注

原创 DRL经典文献阅读(二):确定性策略梯度(DPG+DDPG)【附代码】

在强化学习这一领域中,智能体的策略可以分为两类,即随机策略πθ(a∣s)=P[a∣s;θ],表示在状态sss下根据参数θ\thetaθ随机的概率选择动作aaa;确定性动作a=μθ(s)a=μθ​(s),该策略在状态sss下根据参数θ\thetaθ确定性地给出唯一动作aaa。

2022-11-15 22:48:21 243

原创 脉冲雷达系统设计与Matlab仿真【附仿真代码】

本文主题:雷达分类、作用距离、分辨率、雷达方程、脉冲积累、噪声系数实验:设计一个相对完整的脉冲雷达系统,实现对目标的搜索和探测,并用matlab进行仿真

2022-10-24 21:48:02 1150 51

原创 接收灵敏度和等效噪声带宽(ENBW)

接收机通常包含窄带硬件滤波器以及数字信号处理(DSP)中实现的窄带低通滤波器。等效噪声带宽(ENBW)是了解这些滤波器中噪声底限的一种途径。为了估计接收机设计的灵敏度,了解包括ENBW在内的噪声至关重要。本文将介绍用于计算接收器灵敏度的每个模块的特点,然后将它们放在一起进行计算。

2022-10-20 09:30:00 170

原创 【2022·深度强化学习课程】深度强化学习极简入门与Pytorch实战

强化学习作为行为主义人工智能学派的典型代表,近几年与深度神经网络相结合形成的深度强化学习(DRL),达到了令人惊叹的智能水平:2015年DQN智能体玩视频游戏超越人类水平,2017年基于PPO算法的Open Five在《Dota》游戏中战胜人类顶尖职业玩家,2019年基于DRL的AlphaStar在《星际争霸II》游戏中战胜人类顶尖职业玩家。然而,深度强化学习理论较为抽象,学习曲线陡峭,需要大量的时间和精力才能入门,很多硕士和博士往往浪费了大量时间在入门阶段,耽误了学习和科研进度。

2022-10-18 19:20:20 1027

原创 DRL经典文献阅读(一):策略梯度理论(Policy Gradient, PG)

将强化学习目标函数记为ρ\rhoρ,策略的参数记为θ\thetaθ。在策略梯度中,策略的参数通过梯度提升方式进行更新,更新部分与梯度成成比:∇θ≈α∂ρ∂θ(1)\nabla\theta\approx \alpha\frac{\partial\rho}{\partial\theta}\tag{1}∇θ≈α∂θ∂ρ​(1)智能体的目标函数,常用的定义方式有两种。第一种是多步取均值的方式ρ(π)=lim⁡n→∞1nE{r1+r2+⋯+rn∣π}=∑sdπ(s)∑aπ(s,a)Rsa(2)\rho(\pi

2022-10-17 19:15:32 204

原创 DRL应用实战(三)——AI奥林匹克·相扑RL智能体高分方案【附代码】

在训练的过程中,会将阶段性的表现较好的RL智能体本身加入到对手池中,让智能体与自己的历史版本进行对抗学习,这一点借鉴了self-play。RL算法为PPO,动作为连续动作(force、angle),神经网络为2层的MLP,每层128个神经元,使用tanh激活,详细情况请参考后面给出的代码链接。有谁如果有兴趣可以使用官方给出的基于原始像素的RL去训练,看看能不能战胜我在代码里面给出的几个比较强一点的RL智能体(这里几个智能体都是使用最强的rule-based智能体训练出来的)。原因太多,每次的验证太费时间。

2022-10-16 16:51:43 353

原创 Python软件无线电(1):概述

使用Python处理无线通信相关的问题,甚至是构建软件无线电平台(SDR),我想最大的优势在于能够使用当前日新月异的智能算法,快速验证一些想法。这个教程,从原理到代码,注重从视觉上用图来解释公式背后的含义,难能可贵。

2022-09-15 11:55:59 314

原创 DRL基础(十二)——近端策略优化算法PPO【附代码】

2016年10月OpenAI公司发布了《Dota2》强化学习游戏智能体OpenAI Five,并且经过多年的开发训练后战胜了当时的世界冠军团队OG,技术细节可以看发表的论文。OpenAI Five的核心算法是PPO,一种称为近端策略优化的算法,属于策略梯度算法的一种。OpenAI Five和PPO的成功大大增加了AI研究者对强化学习解决复杂问题的信心,PPO也成为使用强化学习解决各类问题的一个基准算法。PPO属于策略梯度算法,即通过求解强化学习问题中目标函数的梯度,利用梯度提升的方法训练强化学习智能体。这

2022-09-14 22:28:06 659

原创 DRL基础(十一)——策略梯度方法REINFORCE【附代码】

讲解策略梯度基本理论讲解REINFORCE算法基本原理基于Pytorch实现REINFORCE算法

2022-09-05 09:38:29 376

原创 DRL基础(十)——深度Q网络 (DQN)完全教程【附代码】

讲解DQN基本理论,基于Pytorch实现DQN算法,开发智能体控制月球车着陆,DQN完整代码下载链接见文末

2022-06-07 16:49:53 178

原创 DRL应用实战(一)——开发德州扑克RL智能体【附代码】

背景:德扑智能体比赛:http://www.jidiai.cn/compete_detail?compete=20,奖金1w。特点:自己开发的智能体能够在线和别人的智能体对战。1 pettingzoo德州扑克-无限制版 游戏规则观测空间:一个54维的向量,每一维取值为0或1,1表示出现,0表示没出现。索引含义取值0~12黑桃A~K[0,1]13~25黑桃A~K[0,1]26~38黑桃A~K[0,1]39~51玩家1所有下注[0,1].

2022-05-30 11:24:36 178

原创 多智能体深度强化学习综述与批判——Matthew E. Taylor

这篇综述是华盛顿大学的Matthew E. Taylor总结的,“A Survey and Critique of Multiagent Deep Reinforcement Learning”。下载链接:http://arxiv.org/abs/1810.05587v3。0. 摘要深度强化学习(Deep Reinforcement Learning, DRL)近年来取得了突破性的成果,出现了大量与之相关的算法和应用。最近的很多研究已经不仅仅局限于单智能体强化学习,进而开始研究多智能体学习场景下的深度强

2022-05-27 23:06:46 300

原创 DRL基础(九)——深度学习基础:神经网络基础知识与Pytorch实战一篇全讲清楚

【引言】上一篇文章介绍了深度许学习中的梯度优化相关理论及Python实现。但是什么样的函数拟合能力强,还能很容易求解它的梯度呢?那便是神经网络了。介绍神经网络的资料应该是相当丰富了,这里力求以 必要最小 的原则进行介绍,希望读者能够通过本文以及接下来两篇文章掌握深度强化学习所需的深度学习必要知识。 本文介绍神经网络基础知识:全连接神经网络、Pytorch深度学习框架、神经网络的训练和调优等。保持以往文章的风格,本文将给出代码。中英文术语对照表中文英文缩写或符号人工神经.

2022-05-25 15:07:30 206 2

原创 DRL基础(八)——深度学习基础:梯度下降及Python实现

【引言】上一篇文章总结了表格型强化学习的主要内容,从这篇文章开始将介绍深度学习相关内容。先从数值优化开始吧,因为不管看起来多么高端的神经网络模型,最终都需要通过数值优化这个工具去训练。本质上还是在寻找极值、可行解等。文章目录中英文术语对照表1 函数拟合1.1 损失函数2 梯度优化2.1 损失函数的梯度计算2.2 利用梯度寻找函数的极值3 实验验证中英文术语对照表中文英文缩写或符号优化optimization-梯度gradient∇\nabla∇梯度下.

2022-05-17 19:05:08 442

原创 DRL应用实战(二)——“AI奥林匹克”RL智能体获奖方案【代码下载链接见文末】

【引言】是骡子是马,拉出来遛遛。报名参加了中国科学院自动化研究所举办的“奥林匹克 综合”的人工智能比赛。这是一个侧重于强化学习智能体开发的比赛。相比于机器学习比赛,强化学习智能体开发赛最近一两年才出现。上个月参加了一次,拿了前五。现在再次参加一个更有挑战的RL比赛,练练手,本文就作为参赛记录吧。——2022.05.16文章目录中英文术语对照表1 赛题1.1 比赛背景1.2 比赛科目1.3 参赛方式1.4 参赛步骤1.5 奖项设置1.6 赛程安排1.7 具体赛程1.8 参赛资料2 比赛记录2.1 热.

2022-05-16 21:09:31 1067 9

原创 DRL基础(七)——小结:表格型强化学习

为学日益,为道日损。——《老子》第四十八章不知不觉已经将强化学习中的表格型方法主要内容写完了。这可是走过了RL发展的好几十年的历史呢!老子说,为学日益,为道日损。知识应当多多益善,但是如何从形式上的知识转化为自己真正认同的道呢?{}介绍了强化学习发展历史,强化学习问题的形式化描述(马尔可夫决策过程、贝尔曼方程)、蒙特卡洛思想和算法、记忆时间差分思想和算法,还通过编程实现了相关算法并解决OpenAI Gym中的一些棋牌游戏和路径规划问题。内容汇总如下:深度强化学习极简入门(一)——强化学习发展历史简.

2022-05-14 23:56:16 105

原创 DRL基础(六)——强化学习中的时间差分方法(Sarsa、Q-learning)

【引言】上一篇文章介绍了表格型强化学习中的蒙特卡洛方法及其实现。这篇文章将介绍强化学习中的一类重要思想——时间差分(Temporal difference, TD)思想,以及该思想衍生出的两个重要算法:SarsaQ-learning了解原理后将实现这两个算法,并且在“悬崖行走”环境中对算法进行测试。文章目录中英文术语对照表1 强化学习中的时间差分算法1.1 Sarsa算法1.1.1 原理介绍1.1.2 算法伪代码1.2 Q-learning算法1.2.1 原理介绍1.2.2 算法伪代码2 .

2022-05-12 21:28:07 226

原创 DRL基础(五)——强化学习中的蒙特卡洛方法

【引言】前面利用马尔可夫决策过程这一数学工具对强化学习进行了形式化描述,并给出了强化学习智能体的目标函数。那么如何找到最优策略来最大化目标函数?最优策略存在吗?是唯一的吗?在回答这些问题之前,先考虑一下问题想细致一点。首先,状态是智能体决策的依据,状态是连续的还是离散的?可不可以一一枚举出来?其次,智能体的动作是连续的还是离散的?可不可以很方便地列出来?假设状态和动作都是离散的并且能够方便地列出来,这样问题就变得好处理一些了,因为可以使用一张表格,将不同状态下的不同动作所对应的未来收益记录下.

2022-05-02 11:39:47 1517

原创 DRL基础(四)——编程:python与numpy基础

【摘要】人生苦短,我用Python!现代深度强化学习,包括多智能体强化学习,研究者大多使用Python进行试验验证。主要的原因就是Python语言较为贴近自然语言,入门容易,具有各种方便好用的功能包。研究者可以快速开发出各种应用环境验证强化学习算法,实现研究论证与论文发表。本文包含以下内容:Python语言介绍、数据类型、语法、数据结构,类。Numpy的使用:基于Python的数学运算包,是Tenorflow和Pytorch的基础。文章目录1 Python介绍2 基本python语法2.1 .

2022-05-02 09:11:57 965

原创 DRL基础(三)——价值函数与贝尔曼方程

【引言】上一篇文章利用马尔可夫决策过程这一数学工具对强化学习进行了形式化描述,并给出了强化学习智能体的目标函数。那么如何找到最优策略来最大化目标函数?最优策略存在吗?是唯一的吗?在回答这些问题之前,先引入价值函数和贝尔曼方程这两个工具对强化学习进行更加具体的过程性描述。在此基础上,介绍最优价值函数和最优策略等概念。目录中英文术语对照表1. 价值函数1.1 状态价值函数1.2 动作价值和函数2. 贝尔曼方程2.1 基于状态价值函数的贝尔曼方程2.2 用vπ(s)v_\pi(s)vπ​(s)表示qπ(s.

2022-04-25 23:12:11 1151

原创 基于Python的信号处理(2)——离散傅里叶变换DFT

【摘要】 使用Python实现离散傅里叶变换 参考书目:《数字信号处理——原理、算法与应用》第四版 这是一个笔记,不一定全面 本文主题:DFT、IDFT、numpy目录1. 离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)1.1 基本公式1.2 代码实现1.3 绘制信号时域和频域图1.4 增大NNN,提高频谱分辨率1. 离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)1.1 基本公式设信号离散信号x(n)x(n)x(n)的长度为LLL,变换成长度为NNN(N≥LN\g.

2022-04-24 16:22:21 2377

原创 基于Python的信号处理(1)——信号基础知识

使用Python进行信号处理 参考书目:《数字信号处理——原理、算法与应用》第四版 这是一个笔记,不一定全面 本文主题:数字信号基本知识目录1. 信号的数学表达1.1 连续时间正弦信号1.2 离散时间正弦信号1. 信号的数学表达1.1 连续时间正弦信号给定一个连续信号xa(t)=Acos(Ωt+θ)x_a(t)=A\text{cos}(\Omega t+\theta)xa​(t)=Acos(Ωt+θ)它由三个参数完全表征:幅度AAA、频率Ω\OmegaΩ、相位θ\theta...

2022-04-18 09:43:00 2405

原创 DRL基础(二)——使用马尔可夫决策过程(MDP)描述强化学习

强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的强有力的工具——马尔可夫决策过程。

2022-04-17 01:04:09 3001

原创 DRL基础(一)——强化学习发展历史简述

【摘要】这篇博客简要介绍强化学习发展历史:起源、发展、主要流派、以及应用举例。强化学习理论和技术很早就被提出和研究了,属于人工智能三大流派中的行为主义。强化学习一度成为着人工智能研究的主流,最近十年多年随着以深度学习为基础的联结主义的兴起,强化学习在感知和表达能力上得到了巨大提升,在解决某些领域的问题中达到或者超过了人类水平:在围棋领域,基于强化学习和蒙特卡洛树搜索的AlphaGo打败了世界顶级专业棋手;在视频游戏领域,基于深度强化学习的游戏智能体在29款Atari游戏中超过人类平均水平;在即时战略游戏领.

2022-04-16 23:46:12 4233

原创 标强化学习基本假设之——回报函数假设

考虑以下命题:“我们所有目标和目的都可以通过最大化接收到的标量信号(也称为奖励)和的期望来实现。”这是真的?假?一个定义?无法伪造?欢迎大家就该假设发表评论,一两句也行。比如,“是的”,“不是的”。这是我最喜欢的“零假设”,以至于我有时将其简称为零假设。对这个非常基本的问题所持有的立场是很关键的,这样后面才可以更清晰,明智地谈论很多其他问题。迈克尔·利特曼(Michael Littman...

2020-01-01 15:57:13 1165

原创 多智能体强化学习综述-Lucian Busoniu

这篇文章对多智能体强化学习(MARL)的背景,目标设置,常用算法进行了梳理,并对后续MARL的发展做出展望。

2019-06-19 11:51:54 28113

原创 XGBoost+LightGBM+LSTM:一次机器学习比赛中的高分模型方案

目录1 数据探索与数据预处理 21.1 赛题回顾 21.2 数据探索性分析与异常值处理 21.3 相关性分析 52 特征工程 82.1 光伏发电领域特征 82.2 高阶环境特征 112.3 特征选择 113 模型构建与调试 113.1 预测模型整体结构 113.2 基于LightGBM与XGBoost的模型构建与调试 123.3 基于LSTM的模型构建与调试 133.4 ...

2018-09-23 01:25:06 37729 32

翻译 RL综述(一):强化学习综述(Kaelbling、Littman等1996)

作者:Michael L. Littman等摘要这篇文章从计算机科学的角度对强化学习这一领域进行了研究,并且尽量写的让熟悉机器学习的相关研究者能够较为容易的读懂。我们研究了强化学习这一领域历史上的基础,也广泛总结了当今研究的主流选择。强化学习是关于智能体通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题。这篇文章与心理学上的研究有一定的关系,但更值得注意的是,这里的强...

2018-07-14 22:09:18 12304 5

强化学习经典文献R-learning

Average reward reinforcement learning Foundations algorithms and empirical results (1996):强化学习采用平均奖励目标函数

2022-10-17

Deep-Learning-with-Pytorch

Deep-Learning-with-Pytorch

2022-10-17

梯度下降原理与编程实现

梯度下降原理与编程实现

2022-10-17

【jupyter notebook】强化学习中的时间差分算法实现笔记

【jupyter notebook】强化学习中的时间差分算法实现笔记

2022-10-17

【jupyter notebook】强化学习中的蒙特卡洛方法-算法实现笔记

【jupyter notebook】强化学习中的蒙特卡洛方法-算法实现笔记

2022-10-17

强化学习中的python和numpy编程基础

强化学习中的python和numpy编程基础

2022-10-17

第7课 强化学习中的深度Q网络(DQN)

第7课 强化学习中的深度Q网络(DQN)

2022-10-17

第6-2课 深度学习基础与编程实现

第6-2课 深度学习基础与编程实现

2022-10-17

第6-1课 梯度下降算法原理与编程实现

第6-1课 梯度下降算法原理与编程实现

2022-10-17

第5课 强化学习中的时间差分

第5课 强化学习中的时间差分

2022-10-17

第4课 强化学习中的蒙特卡洛方法

第4课 强化学习中的蒙特卡洛方法

2022-10-17

第3课 Python与Numpy基础

第3课 Python与Numpy基础

2022-10-17

第2课 马尔可夫决策过程

第2课 马尔可夫决策过程

2022-10-17

REINFORCE理论+实现代码

REINFORCE理论+实现代码

2022-10-17

策略梯度算法PPO+代码解读

策略梯度算法PPO+代码解读

2022-10-17

AI-奥林匹克·相扑比赛高分强化学习智能体实现代码

AI-奥林匹克·相扑比赛基于规则的智能体和基于强化学习的智能体解决方案,该方案训练出的智能体能进入对战排行榜前十。基于代码实现的规则,能进入排行榜前三。 1 手动提取特征(manual feature extraction) 2 重新封装环境 3 训练表现

2022-10-16

深度强化学习DQN算法源码【Pytorch实现·超详细注释】

基于Pytorch实现的深度强化学习DQN算法源代码,具有超详细的注释,已经在诸多项目中得到了实际应用。主要包含2个文件:(1)dqn.py,实现DQN只能体的结构、经验重放池、Q神经网络、学习方法等;(2)runner.py,使用dqn.py中的智能体与环境进行交互与学习,并最终学会仿真月球车着陆游戏。

2022-08-28

图解Spark++核心技术与案例实战_郭景瞻编著.pdf

spark图书资料,适合新手学习,了解spark中的基本内容

2019-05-15

C#多线程Demo

.net下,C#语言的多线程示例,使用Parallel类

2017-02-07

零钱包图纸.psd

一个零钱包的图纸,皮具DIY可以使用

2016-12-05

WinForm圆形按钮(C#)

利用C#语言制作的自定义控件:圆形按钮,按钮形状参数可定义。可显示音乐播放器形态的按钮。包含Demo和Dll

2016-02-23

MySQL.Data.dll(6.9.7)

MySQL官方开发,用于.Net连接MySQL数据库。

2015-11-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除