自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 NS3学习笔记

1 NS3脚本的编写2 NS3中的类1 第一个例子 first.cc先把examples/tutorial里的first.cc拷贝到scratch文件夹里,命名为myfirst.cc运行myfirst.ccsudo ./waf –run scratch/myfirst.cc运行可视化模块:sudo ./waf –run scratch/myfirst –vis2 second.cc...

2020-11-09 11:27:56 337

原创 ubuntu16.04下安装NS3.27

ubuntu16.04下安装NS3.27

2020-11-09 10:30:06 831

原创 RL学习笔记-6-DDPG 算法

在连续控制领域,比较经典的强化学习算法就是DDPG(Deep Deterministic Policy Gradient)。DDPG 的特点可以从它的名字当中拆解出来,拆解成 Deep、Deterministic 和 Policy Gradient。 Deep 是因为用了神经网络; Deterministic 表示 DDPG 输出的是一个确定性的动作,可以用于连续动作的一个环境; Policy Gradient 代表的是它用到的是策略网络。REINFORCE 算法每隔一个 e...

2020-11-08 23:19:29 1836

原创 RL学习笔记-5-稀疏奖励及模仿学习

2020-11-04 22:37:23 209

原创 RL学习笔记-4-DQN 算法及 Actor-Critic 算法

2020-11-03 10:47:22 184

原创 RL学习笔记-3-策略梯度及PPO算法

策略梯度及PPO算法

2020-10-29 16:22:55 303

原创 RL学习笔记-2-马尔可夫决策过程及表格型方法

1 马尔可夫过程 Markov Process, MP一个状态的下一个状态只取决于当前的状态,与当前状态之前的状态无关。2 马尔可夫奖励过程 Markov Reward Process, MRP 求解MRPs的迭代方法:动态规划 蒙特卡洛方法(通过采样) TD算法:是动态规划和蒙特卡洛方法的集合(1)利用蒙特卡洛方法求解MRP的价值函数:(2)利用动态规划的方法,一直迭代贝尔曼方程,最后让它收敛:3 马尔可夫决策过程 Markov Decision Proc..

2020-10-23 10:02:13 287

原创 RL学习笔记-1-概括与基础

主要是强化学习相关概念,正在整理中。。

2020-10-20 10:36:06 355

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除