阿凡齐-CSDN博客

原创 NS3学习笔记

1 NS3脚本的编写2 NS3中的类1 第一个例子 first.cc先把examples/tutorial里的first.cc拷贝到scratch文件夹里，命名为myfirst.cc运行myfirst.ccsudo ./waf –run scratch/myfirst.cc运行可视化模块：sudo ./waf –run scratch/myfirst –vis2 second.cc...

2020-11-09 11:27:56 418

原创 ubuntu16.04下安装NS3.27

ubuntu16.04下安装NS3.27

2020-11-09 10:30:06 1021

在连续控制领域，比较经典的强化学习算法就是DDPG(Deep Deterministic Policy Gradient)。DDPG 的特点可以从它的名字当中拆解出来，拆解成 Deep、Deterministic 和 Policy Gradient。 Deep 是因为用了神经网络； Deterministic 表示 DDPG 输出的是一个确定性的动作，可以用于连续动作的一个环境； Policy Gradient 代表的是它用到的是策略网络。REINFORCE 算法每隔一个 e...

2020-11-08 23:19:29 2089

原创 RL学习笔记-5-稀疏奖励及模仿学习

2020-11-04 22:37:23 276

原创 RL学习笔记-4-DQN 算法及 Actor-Critic 算法

2020-11-03 10:47:22 279

原创 RL学习笔记-3-策略梯度及PPO算法

策略梯度及PPO算法

2020-10-29 16:22:55 379

原创 RL学习笔记-2-马尔可夫决策过程及表格型方法

1 马尔可夫过程 Markov Process, MP一个状态的下一个状态只取决于当前的状态，与当前状态之前的状态无关。2 马尔可夫奖励过程 Markov Reward Process, MRP 求解MRPs的迭代方法：动态规划蒙特卡洛方法（通过采样） TD算法：是动态规划和蒙特卡洛方法的集合（1）利用蒙特卡洛方法求解MRP的价值函数：（2）利用动态规划的方法，一直迭代贝尔曼方程，最后让它收敛：3 马尔可夫决策过程 Markov Decision Proc..

2020-10-23 10:02:13 394